Detecting social bias in text is challenging due to nuance, subjectivity, and difficulty in obtaining good quality labeled datasets at scale, especially given the evolving nature of social biases and society. To address these challenges, we propose a few-shot instruction-based method for prompting pre-trained language models (LMs). We select a few label-balanced exemplars from a small support repository that are closest to the query to be labeled in the embedding space. We then provide the LM with instruction that consists of this subset of labeled exemplars, the query text to be classified, a definition of bias, and prompt it to make a decision. We demonstrate that large LMs used in a few-shot context can detect different types of fine-grained biases with similar and sometimes superior accuracy to fine-tuned models. We observe that the largest 530B parameter model is significantly more effective in detecting social bias compared to smaller models (achieving at least 20% improvement in AUC metric compared to other models). It also maintains a high AUC (dropping less than 5%) in a few-shot setting with a labeled repository reduced to as few as 100 samples. Large pretrained language models thus make it easier and quicker to build new bias detectors.


翻译:检测文字中的社会偏差具有挑战性,因为细微、主观和难以获得质量良好的标签数据集,特别是考虑到社会偏见和社会的演变性质。为了应对这些挑战,我们建议了一种微小的基于指导的办法来促进预培训语言模式(LMs)。我们从一个与嵌入空间中贴上标签的查询最接近的小支持存储库中选择几个标签平衡的模版。我们然后向LM提供由这个标签的模版组组成的教学,查询文本有待分类,偏见定义,并促使它作出决定。我们证明,在几发环境中使用的大型LMs可以探测出不同类型的精细的偏差,与微调模型相似,有时甚至更精确。我们观察到,最大的530B参数模型比较小的模型在发现社会偏差方面要有效得多(与其他模型相比,AUC衡量标准至少改进20% ) 。它还保持高的AUC(略低于5% ) 在几发图像前的模型中保持高的AUCSUC(降低5% ), 并让它更精确地定位为100 。

0
下载
关闭预览

相关内容

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2018年3月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
6+阅读 · 2019年9月4日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
相关VIP内容
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
24+阅读 · 2020年4月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
已删除
将门创投
5+阅读 · 2018年3月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员