AAAI 2021最佳论文阅读：通过强化校准减轻语言模型中的政治偏见

会员服务 ·

AAAI 2021最佳论文阅读：通过强化校准减轻语言模型中的政治偏见

2021 年 2 月 10 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张一帆

学校｜华南理工大学本科生

研究方向｜CV，Causality

论文标题：

Mitigating Political Bias in Language Models Through Reinforced Calibration

论文链接：

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf

Main Contribution：描述了衡量 GPT-2 生成任务种政治偏见的指标，并提出了一个基于强化学习 (RL) 的框架来减轻生成文本中的政治偏见，该框架不需要访问训练数据或者重新训练模型。

Motivation

GPT-2 名声在外，被称为 NLP 界的“核武器”。虽然刷榜无数，但是存在的问题也逐渐浮现了出来。由于使用了大量的预训练数据，因此模型不可避免的产生了像人一样的“政治偏见”，这些政治偏见主要与性别，位置，话题有关。文章将偏见分为两种：

Indirect Bias：句子中带有以上三种类别相关的关键词导致的 bias；
Direct Bias：除了相关关键词之外，使用了很强的触发词（比如民主党，共和党）。

如何评估和解决这些 bias，是这篇文章的要点。

Notations

Sensitive Attributes：本文探讨了三个敏感属性:性别、地点、话题。每个属性都包含多个选项（例如，male 是一个性别选项，bluestate 是一个位置选项），每个选项都可以用关键字来举例（例如，Jacob 是一个关于 male 的关键字，massachusetts 是一个blue states关键字）。接下来用表示关键字，表示选项，表示属性。

Language Modeling：文中的语言模型即输入与含有敏感属性相关提示符的句子，输出一个序列。

Bias Judgement：这里有一个重要概念，我们预训练一个政治偏见分类器。给定一个生成的 token 序列，他能计算出一个得分。接近 0 的值表示句子偏向自由派，否则偏向保守派。定义一组 text 的 base rate 为其中每个文本被我们预先训练的分类器分类为 1 的相应概率的分布。

Metrics

这部分是文章的重点之一，如何刻画生成模型对性别、地点、话题属性的敏感程度，甚至是更细粒度的对男/女，具体位置这些选项的敏感程度？文章提出了两个指标

INDIRECT BIAS：他的定义如下，给定：

: 根据选项所含关键字产生的文本集合；
: 属性所含所有属性的关键词产生文本的集合。

直观来看，如果我们模型生成的文本对选项不敏感，那么的 base rate 可以写作，而后者恰好是我们用来生成文本集合的 base rate（想象一下我们有属性：性别，选项：男/女，每个选项生成五条文本，由所有属性生成的文本显然分布很均匀，不对任何选项有偏见。所谓的对某选项不敏感，即我们喂模型该选项相关的关键词，生成文本的分布与总体分布是一致的--Option Invariant）。

那么现在目标很明确了，给定选项，属性，我们需要一个 distance function 刻画这，两个集合 base rate 之间的距离，文章选择了 second order Sliced Wasserstein Distance，具体写作：

DIRECT BIAS：所谓的 direct 就是说我们直接在生成过程提供政治敏感的词汇作为条件，定义为：

上标代表提供自由派相关的词汇，表示保守派。当这个差值为 0 的时候，说明了我们的模型不管给定什么敏感词汇，输出的分布都是一致的，也即对这些政治敏感的词汇 unbiased。

Debias through Reinforced Calibration

有了这些 metric，接下来的问题就是如何减小它们了。相信很少有人愿意花上亿资产 retrained 整个 GPT-2，这篇文章采用了类似于 fine-tune 的手段，在 softmax 与 argmax 之间插入 debias 的模块来对生成的 embedding（下图 Mode1）或者 distribution（下图 Mode2）进行校准。

简单介绍一下强化学习的基本设置：

时刻的state: ，即该时刻之前生成的所有文本；
时刻的action: ，即该时刻输出的文本；
policy ：最后一个隐层的 softmax 输出，这个 policy 可以看作给定 state ，我们选择 action 的概率。

文章还准备了 (i) 两个数据集 , （L,C 即自由派，保守派）。 (ii) 两个分类器，一个基于 GPT-2 的分类器以及之前提到的。

每个时刻的 reward 定义为：

其中是根据 mode 不同设计的不同奖励信号。除此之外，debias policy 与原本模型采取的 policy 的商作为因子更好的引导该优化过程。

接下来的问题就是如何针对这两个 mode 设计不同的奖励信号了。

MODE 1: Word Embedding Debias

在 embedding 的层次上，文章采取的策略是这样的，给定两个词汇集合，一个 embedding 的 distance 函数，奖励信号写作：

前两项希望 word 距离两个有偏词集合越远越好，最后一项希望 word 与两个集合的距离尽量一样。

MODE 2: Classifier Guided Debias

生成文本到时刻生成的结果一共可以写作

，总共的 debias 增益可以计算为每步产生的加权增益的总和。

这里的是一个 discounting factor。而这个增益可以写为一个 cross-entropy 的形式：

还记得我们预先训练的吗？这个负的交叉熵就是为了计算该分类器将给定 token 的分类结果。为了使得输出 unbiased，我们最大化交叉熵，因此 reward 是负的交叉熵损失。

最后，为了防止差距过大使得可读性变差，文章还加入了 KL 散度作为约束，总体的算法如下：

该算法被称为校准，因为它不是从零开始生成无偏文本，而是对原始的 hidden states 执行 debias。该算法将产生一个无偏政策，我们可以用它生成符合政治中立的文本。

Expermients

对于每个属于某个选项的关键字，我们生成 10 个样本，长度为 100 个 token，每个样本有 M=10 种提示。因此，对于一个给定的选项，我们生成 |a|·M·10 个样本（比如文章选择了 17 个男性名字来代表这一性别属性，因此总共产生了 1700 个句子作为代表样本）。

简单看一眼 evaluation 的结果，显然比起 baseline 来，无论是 mode1 还是 mode2，提升都比较显著。

同时，模型的偏见在减小的同时，可读性，与关键词的一致性甚至有所提升。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

有偏

关注 0

【CVPR2021】通过上下文和运动解耦的自监督视频表示学习

专知会员服务

20+阅读 · 2021年4月15日

【ICLR2021】自监督蒸馏学习视觉表示

专知会员服务

34+阅读 · 2021年4月14日

【AAAI2021】缓解语言模型政治偏见

专知会员服务

22+阅读 · 2021年2月6日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

【ICML2020-西电】用于语言生成的递归层次主题引导RNN

专知会员服务

22+阅读 · 2020年6月30日

【华盛顿大学】预训练语言模型中的潜在名称构件

专知会员服务

4+阅读 · 2020年4月6日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

赛尔原创 | ACL 2019 机器阅读理解中不可答问题的数据增广

哈工大SCIR

15+阅读 · 2019年6月21日

全局语义语境能改善神经语言模型吗？

深度学习与NLP

3+阅读 · 2018年10月8日

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

ACL 2018 | 利用Lattice LSTM的最优中文命名实体识别方法

机器之心

6+阅读 · 2018年6月30日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

干货 | 自然语言处理(1)之聊一聊分词原理

机器学习算法与Python学习

5+阅读 · 2017年12月7日

大神们最近都在读这些论文 | 本周值得读 #44

PaperWeekly

7+阅读 · 2017年8月12日

Stochastic Multi-level Composition Optimization Algorithms with Level-Independent Convergence Rates

Arxiv

0+阅读 · 2021年4月21日

Knowledge Graphs

Arxiv

102+阅读 · 2020年3月4日

Story Realization: Expanding Plot Events into Sentences

Arxiv

3+阅读 · 2019年9月8日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos

Arxiv

3+阅读 · 2019年7月11日

Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning

Arxiv

3+阅读 · 2019年6月11日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月3日

Text classification using capsules

Arxiv

5+阅读 · 2018年8月12日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

Depth-Gated LSTM

Arxiv

4+阅读 · 2015年8月25日

VIP会员