AAAI 2021最佳论文阅读:通过强化校准减轻语言模型中的政治偏见

2021 年 2 月 10 日 PaperWeekly

©PaperWeekly 原创 · 作者|张一帆
学校|华南理工大学本科生
研究方向|CV,Causality



论文标题:

Mitigating Political Bias in Language Models Through Reinforced Calibration


论文链接:

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf

Main Contribution:描述了衡量 GPT-2 生成任务种政治偏见的指标,并提出了一个基于强化学习 (RL) 的框架来减轻生成文本中的政治偏见,该框架不需要访问训练数据或者重新训练模型


Motivation


GPT-2 名声在外,被称为 NLP 界的“核武器”。虽然刷榜无数,但是存在的问题也逐渐浮现了出来。由于使用了大量的预训练数据,因此模型不可避免的产生了像人一样的“政治偏见”,这些政治偏见主要与性别,位置,话题有关。文章将偏见分为两种:

  • Indirect Bias:句子中带有以上三种类别相关的关键词导致的 bias;

  • Direct Bias:除了相关关键词之外,使用了很强的触发词(比如民主党,共和党)。



如何评估和解决这些 bias,是这篇文章的要点。


Notations


Sensitive Attributes:本文探讨了三个敏感属性:性别、地点、话题。每个属性都包含多个选项(例如,male 是一个性别选项,bluestate 是一个位置选项),每个选项都可以用关键字来举例(例如,Jacob 是一个关于 male 的关键字,massachusetts 是一个blue states关键字)。接下来用 表示关键字, 表示选项, 表示属性。
Language Modeling:文中的语言模型即输入与含有敏感属性相关提示符 的句子,输出一个序列。
Bias Judgement:这里有一个重要概念,我们预训练一个政治偏见分类器 。给定一个生成的 token 序列 ,他能计算出一个得分 。接近 0 的值表示句子偏向自由派,否则偏向保守派。定义一组 text 的 base rate 为其中每个文本被我们预先训练的分类器分类为 1 的相应概率的分布。


Metrics


这部分是文章的重点之一,如何刻画生成模型对性别、地点、话题属性的敏感程度,甚至是更细粒度的对男/女,具体位置这些选项的敏感程度?文章提出了两个指标
INDIRECT BIAS:他的定义如下,给定:
  • : 根据选项 所含关键字产生的文本集合;
  • : 属性 所含所有属性的关键词产生文本的集合。
直观来看,如果我们模型生成的文本对 选项不敏感,那么 的 base rate 可以写作 ,而后者恰好是我们用 来生成文本集合的 base rate(想象一下我们有属性:性别,选项:男/女,每个选项生成五条文本,由所有属性生成的文本显然分布很均匀,不对任何选项有偏见。所谓的对某选项不敏感,即我们喂模型该选项相关的关键词,生成文本的分布与总体分布是一致的--Option Invariant)。
那么现在目标很明确了,给定选项 ,属性 ,我们需要一个 distance function 刻画这 两个集合 base rate 之间的距离,文章选择了 second order Sliced Wasserstein Distance,具体写作:
DIRECT BIAS:所谓的 direct 就是说我们直接在生成过程提供政治敏感的词汇作为条件,定义为:
上标 代表提供自由派相关的词汇, 表示保守派。当这个差值为 0 的时候,说明了我们的模型不管给定什么敏感词汇,输出的分布都是一致的,也即对这些政治敏感的词汇 unbiased。


Debias through Reinforced Calibration


有了这些 metric,接下来的问题就是如何减小它们了。相信很少有人愿意花上亿资产 retrained 整个 GPT-2,这篇文章采用了类似于 fine-tune 的手段,在 softmax 与 argmax 之间插入 debias 的模块来对生成的 embedding(下图 Mode1)或者 distribution(下图 Mode2)进行校准。


简单介绍一下强化学习的基本设置:

  • 时刻 的state: ,即该时刻之前生成的所有文本;
  • 时刻 的action: ,即该时刻输出的文本;
  • policy :最后一个隐层的 softmax 输出,这个 policy 可以看作给定 state ,我们选择 action 的概率。
文章还准备了 (i) 两个数据集 , (L,C 即自由派,保守派)。 (ii) 两个分类器,一个基于 GPT-2 的分类器 以及之前提到的
每个时刻的 reward 定义为:
其中 是根据 mode 不同设计的不同奖励信号。除此之外,debias policy 与原本模型采取的 policy 的商作为因子更好的引导该优化过程。
接下来的问题就是如何针对这两个 mode 设计不同的奖励信号了。
MODE 1: Word Embedding Debias
在 embedding 的层次上,文章采取的策略是这样的,给定 两个词汇集合,一个 embedding 的 distance 函数 ,奖励信号写作:


前两项希望 word 距离两个有偏词集合越远越好,最后一项希望 word 与两个集合的距离尽量一样。

MODE 2: Classifier Guided Debias

生成文本到 时刻生成的结果一共可以写作 ,总共的 debias 增益可以计算为每步产生的加权增益的总和。


这里的 是一个 discounting factor。而这个增益可以写为一个 cross-entropy 的形式:


还记得我们预先训练的 吗?这个负的交叉熵就是为了计算该分类器将给定 token 的分类结果。为了使得输出 unbiased,我们最大化交叉熵,因此 reward 是负的交叉熵损失。
最后,为了防止 差距过大使得可读性变差,文章还加入了 KL 散度作为约束,总体的算法如下:


该算法被称为校准,因为它不是从零开始生成无偏文本,而是对原始的 hidden states 执行 debias。该算法将产生一个无偏政策 ,我们可以用它生成符合政治中立的文本。


Expermients


对于每个属于某个选项 的关键字 ,我们生成 10 个样本,长度为 100 个 token,每个样本有 M=10 种提示。因此,对于一个给定的选项,我们生成 |a|·M·10 个样本(比如文章选择了 17 个男性名字来代表这一性别属性,因此总共产生了 1700 个句子作为代表样本)。
简单看一眼 evaluation 的结果,显然比起 baseline 来,无论是 mode1 还是 mode2,提升都比较显著。


同时,模型的偏见在减小的同时,可读性,与关键词的一致性甚至有所提升。  



更多阅读

 



#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



登录查看更多
0

相关内容

【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
33+阅读 · 2021年4月14日
专知会员服务
21+阅读 · 2021年2月6日
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
全局语义语境能改善神经语言模型吗?
深度学习与NLP
3+阅读 · 2018年10月8日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
大神们最近都在读这些论文 | 本周值得读 #44
PaperWeekly
7+阅读 · 2017年8月12日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
6+阅读 · 2019年8月22日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
8+阅读 · 2018年5月24日
Arxiv
4+阅读 · 2015年8月25日
VIP会员
相关VIP内容
【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
33+阅读 · 2021年4月14日
专知会员服务
21+阅读 · 2021年2月6日
专知会员服务
29+阅读 · 2020年9月18日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
【ICML2020-西电】用于语言生成的递归层次主题引导RNN
专知会员服务
21+阅读 · 2020年6月30日
【华盛顿大学】预训练语言模型中的潜在名称构件
专知会员服务
3+阅读 · 2020年4月6日
相关资讯
全局语义语境能改善神经语言模型吗?
深度学习与NLP
3+阅读 · 2018年10月8日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
干货 | 自然语言处理(1)之聊一聊分词原理
机器学习算法与Python学习
5+阅读 · 2017年12月7日
大神们最近都在读这些论文 | 本周值得读 #44
PaperWeekly
7+阅读 · 2017年8月12日
相关论文
Arxiv
99+阅读 · 2020年3月4日
Arxiv
6+阅读 · 2019年8月22日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
8+阅读 · 2018年5月24日
Arxiv
4+阅读 · 2015年8月25日
Top
微信扫码咨询专知VIP会员