当前的大规模语言模型可能由于其训练数据而产生政治偏见,当将它们部署在现实环境中时可能会导致严重的问题。

在本文中,我们提出了用于衡量GPT-2生成中的政治偏见的指标,并提出了一种强化学习(RL)框架,用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励,我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏见生成。

在对政治偏见敏感的三个属性(性别、位置和主题)的实证实验中,我们的方法根据我们的指标和人工评估很好地减少了偏见,同时保持了可读性和语义一致性。

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf

成为VIP会员查看完整内容
21

相关内容

【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
26+阅读 · 2021年2月9日
专知会员服务
34+阅读 · 2021年2月9日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【AAAI2021 Tutorial】工业界负责任的人工智能,262页ppt
专知会员服务
114+阅读 · 2021年2月7日
专知会员服务
26+阅读 · 2021年2月2日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
68+阅读 · 2020年12月27日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
46+阅读 · 2020年12月26日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
自动文本摘要
AI研习社
21+阅读 · 2018年10月27日
Arxiv
0+阅读 · 2021年3月30日
Arxiv
0+阅读 · 2021年3月29日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
7+阅读 · 2020年3月30日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
7+阅读 · 2018年6月1日
VIP会员
相关VIP内容
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
26+阅读 · 2021年2月9日
专知会员服务
34+阅读 · 2021年2月9日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
48+阅读 · 2021年2月7日
【AAAI2021 Tutorial】工业界负责任的人工智能,262页ppt
专知会员服务
114+阅读 · 2021年2月7日
专知会员服务
26+阅读 · 2021年2月2日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【AAAI2021】层次推理图神经网络
专知会员服务
68+阅读 · 2020年12月27日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
46+阅读 · 2020年12月26日
【AAAI2021】“可瘦身”的生成式对抗网络
专知会员服务
12+阅读 · 2020年12月12日
相关资讯
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
美参议员提出商业面部识别隐私法案
蚂蚁金服评论
12+阅读 · 2019年4月25日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
自动文本摘要
AI研习社
21+阅读 · 2018年10月27日
相关论文
Arxiv
0+阅读 · 2021年3月30日
Arxiv
0+阅读 · 2021年3月29日
TResNet: High Performance GPU-Dedicated Architecture
Arxiv
7+阅读 · 2020年3月30日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
7+阅读 · 2018年6月1日
微信扫码咨询专知VIP会员