ACL 2020 | 消除文本分类问题中歧视现象的研究

会员服务 ·

ACL 2020 | 消除文本分类问题中歧视现象的研究

2020 年 7 月 17 日 PaperWeekly

©PaperWeekly 原创 · 作者｜张冠华、白冰

研究机构｜哈工大/腾讯

研究方向｜自然语言处理

导语

文本分类问题是自然语言处理中的一个基础问题，旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。最近，学术界发现文本分类数据集常常包含对某些群体的歧视，这是因为这些数据集反映了人类社会中普遍存在的偏见。

机器学习在这些有歧视的数据集中训练时，也会学习到这些歧视的模式，从而产生歧视性的预测结果。比如，模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。

本文探究了文本分类中歧视问题的形式化定义，并提出了一种基于样本加权的无需额外数据的模型去歧视方法。 实验结果表明我们的方法可以有效缓解模型预测过程中对弱势群体的歧视问题。本文章已经被 ACL 2020 录取。

论文标题：Demographics Should Not Be the Reason of Toxicity: Mitigating Discrimination in Text Classifications with Instance Weighting

论文链接：https://arxiv.org/abs/2004.14088

代码链接：https://github.com/ghzhang233/Non-Discrimination-Learning-for-Text-Classification

问题背景

文本分类问题是自然语言处理中的一个基础问题，旨在根据语义预测一句话的标签。常见的文本分类任务包括情感检测、意图分析等。

最近，学术界发现文本分类数据集常常包含对某些群体的歧视, 这是因为这些数据集反映了人类社会中普遍存在的偏见。具体地，这种歧视表现为在数据集中某些群体对特定标签有明显的倾向性。比如在 Toxicity Comments 数据集中，如下表所示，我们可以看出一些群体词如 “gay” 与标签 “Abusive” 有着很强的关联。

机器学习在这些有歧视的数据集中训练时，也会学习到这些歧视的模式，从而产生歧视性的预测结果。比如，模型可能会仅仅因为句子中的“女人”一词就把“我是一个女人”判断为侮辱性语句。如果这样有歧视的模型被应用在实际生活场景中，不难想象其会对一些弱势群体造成伤害。

问题定义

我们首先给出无歧视分布和无歧视模型的定义。在本文中，我们使用来表示句子，来表示标签，来表示句子中的包含的群体信息，来表示模型的预测。

2.1 无歧视分布

如前面所说的，数据集中的歧视现象是人类社会中的偏见的映射，我们称有偏数据集中的分布为有歧视分布。

现实世界是有歧视的，对应地，我们可以假设存在一个无歧视的理想世界，而现实世界则是理想世界的一个歧视性的映射。进一步地，我们可以假设存在一个无歧视分布反映了理想世界，而有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的。

我们用表示无歧视分布中的概率，表示有歧视分布中的概率，则无歧视分布显然应该满足群体信息与标签无关，即：

2.2 无歧视模型

对于文本分类模型，我们使用 Equalized Odds 来定义模型的歧视行为。具体地，无歧视模型应该满足在给定标签的情况下，模型的预测应该与群体信息无关。

同时，我们证明当测试集满足群体信息与标签独立时，满足 Equalized Odds 的模型也同时满足另外两个常用的无歧视模型定义，即 Demographic Parity 和 Predictive Parity。

所以，在本文中，我们定义一个无歧视的模型，当在的数据集中测试时，应该满足：

去歧视方法

基于有歧视分布是从无歧视分布中遵循着歧视性的规则抽样得到的视角，我们使用来表示采样决策变量，并用表示一个样本被从无歧视分布中采样到有歧视分布中。即：

此外，无歧视分布还应该满足：

在理想情况下，如果的取值是完全随机的，那么采样得到的数据应该可以很好地反映无歧视分布。然而，由于社会偏见，的取值并非随机的。受到数据集中某些群体对特定标签有明显的倾向性的现象的启发，我们假设的取值由和决定。此外，我们还假设，对于任意满足的后验概率大于 0，即：

同时，我们还额外假设采样的过程不会改变群体信息的边缘概率分布，也就是：

我们可以证明当群体信息完全包含在句子中时，满足一致性的学习器渐进地不受这个假设影响。

基于以上四个假设，我们证明通过对模型在训练的时候添加样本权重，可以等价于在无歧视分布中训练模型。具体证明请见论文。

具体的算法流程图如下：

在实践中，我们可以基于具体情况选择性地设置，比如设置或者均匀分布等。而对于，我们可以使用随机森林等分类器来进行估计。

实验

4.1 实验设置

在实验中，我们选择 Sexist Tweets, Toxicity Comments 和 Jigsaw Toxicity 三个数据集来评估我们方法的去歧视效果。其中，Sexist 用来评估性别歧视，另外两个用来评估群体歧视。

对于 Toxicity Comments，为了与其他工作中的结果对齐，我们使用与其一样的 CNN 网络。而对于另外两个数据集，我们使用单层 128 维的 LSTM 模型来作为 Baseline。

此外，我们在 Sexist 中与数据补充方法（Swap）方法进行了比较，在 Toxicity Comments 和 Jigsaw Toxicity 中与数据补充方法（Supplement）进行了比较。

为了评估模型的歧视性，参照其他工作中的做法，我们基于模板生成了 Identity Phrase Templates Test Sets（IPTTS）用来做评估模型的测试集。我们在 IPTTS 中分别计算 False Positive Equality Difference（FPED）和 False Negative Equality Difference（FNED）两个指标来评估模型的歧视性。

这两个指标可以看作是对 Equalized Odds 的一种松弛，FPED 和 FNED 越小，则模型中歧视越少。此外，我们还分别在原测试集与 IPTTS 中计算 AUC 来衡量模型的性能。

4.2 实验结果

Sexist Tweets 从表 3 中，我们可以发现我们的加权方法在 FPED 和 FNED 上显著优于 Baseline，说明我们的模型能有效消除模型歧视。数据增强方法在 FPED 和 FNED 上强于加权方法，但是在 IPTTS AUC 上也更低，这说明 Swap 去歧视是以牺牲模型性能为代价的。

Toxicity Comments 从表 4 中，我们可以发现加权方法在 FPED, FNED 和 IPTTS AUC 上均优于 Baseline，说明了我们方法的去歧视能力。

同时，我们注意到我们的加权方法的去歧视效果甚至比数据补充方法还略好，而数据补充方法是需要针对性补充额外的数据的！此外，我们注意到加权方法的 Orig. AUC 与另两种方法相差不大，说明我们方法对模型性能损失很小。

Jigsaw Toxicity 从表 5 中，我们可以看出，与表 4 的结果相似，加权方法和数据补充方法在 IPTTS AUC 和 FPED 上都显著优于 Baseline，而加权方法与数据补充方法在去歧视结果上无显著差异，表现出了加权方法能有效缓解数据集歧视对模型的影响。