Deep learning models often learn and exploit spurious correlations in training data, using these non-target features to inform their predictions. Such reliance leads to performance degradation and poor generalization on unseen data. To address these limitations, we introduce a more general form of counterfactual data augmentation, termed counterbias data augmentation, which simultaneously tackles multiple biases (e.g., gender bias, simplicity bias) and enhances out-of-distribution robustness. We present CoBA: CounterBias Augmentation, a unified framework that operates at the semantic triple level: first decomposing text into subject-predicate-object triples, then selectively modifying these triples to disrupt spurious correlations. By reconstructing the text from these adjusted triples, CoBA generates counterbias data that mitigates spurious patterns. Through extensive experiments, we demonstrate that CoBA not only improves downstream task performance, but also effectively reduces biases and strengthens out-of-distribution resilience, offering a versatile and robust solution to the challenges posed by spurious correlations.


翻译:深度学习模型常从训练数据中学习并利用虚假相关性,依赖这些非目标特征进行预测。这种依赖性导致模型在未见数据上性能下降、泛化能力差。为应对这些局限,我们引入了一种更通用的反事实数据增强形式,称为反偏置数据增强,它能同时处理多种偏差(如性别偏差、简单性偏差)并提升分布外鲁棒性。我们提出CoBA:反偏置增强框架,这是一个在语义三元组层面操作的统一框架:首先将文本分解为主语-谓语-宾语三元组,然后有选择地修改这些三元组以破坏虚假相关性。通过从调整后的三元组重构文本,CoBA生成能够缓解虚假模式的反偏置数据。大量实验表明,CoBA不仅能提升下游任务性能,还能有效减少偏差并增强分布外鲁棒性,为虚假相关性带来的挑战提供了一个通用且稳健的解决方案。

0
下载
关闭预览

相关内容

ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
81+阅读 · 2023年3月4日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员