语言模型在训练过程中需要大量的数据,这限制了它们的使用范围,仅限于能够满足这些数据需求的语言。为了将语言技术扩展到更多的语言社区,研究人员开发了多语言模型(MLMs),这些模型基于来自多种语言的数据进行训练。其理念是,不同语言可以互相支持,因为它们共享共同的模式,这使得模型可以在更多语言中有效使用。

然而,这种方法在技术和社会层面上都带来了新的挑战。当一个模型在多种语言上进行训练时,这些语言会开始争夺有限的模型容量,这可能导致负面干扰,降低模型的有效性。此外,为了将多语言模型部署到文化多样的社区,它们的输出需要对这些社区的社会文化规范和偏见保持敏感。这就要求多语言模型也必须具备内在的多文化特征。 在本论文中,我们探讨了如何构建更有效的多语言模型,以减轻跨语言的负面干扰,并研究多语言训练对它们所编码的社会偏见和文化价值观的影响。 近年来,自然语言处理(NLP)领域在多种任务中取得了快速的性能提升。这一成功在很大程度上归因于大规模自监督预训练方法的发展,这些方法绕过了对大量人工标注数据集的需求。然而,大规模预训练仍然需要海量文本数据,使得这些技术的有效性在很大程度上依赖于特定语言所能提供的资源量。这严重限制了NLP的进展,仅限于能够满足这些文本需求的少数几种语言(Hedderich等人,2021)。因此,这导致了不同语言社区之间在语言技术的质量和可用性上的差异(O’Horan等人,2016;Joshi等人,2020)。为了弥合这一差距,并将大规模预训练的优势扩展到低资源语言,研究人员集中开发了更广泛适用于多种语言的模型。这激发了对多语言NLP领域的重新关注,并促成了基于多语言文本联合训练的单一模型的发展,即多语言语言模型(MLMs)。多语言联合训练的直觉是,它促进了语言之间的信息共享。通过这样做,语言能够通过利用它们的共同点来相互支持,并创造一个共享的多语言语义空间。这样做的好处是多方面的:它限制了低资源语言的文本需求,更好地支持少样本或零样本的跨语言模型迁移,并允许模型对新(未见过的)语言进行泛化。 然而,尽管语言模型(LMs)已经变得越来越多语言化,在预训练过程中涵盖了100多种语言,但当前的多语言建模设计仍然带来了新的技术和社会挑战。特别是,先前的研究表明,多语言联合学习会受到负面干扰的影响——即有利于某一语言的参数更新,却会损害其处理另一种语言的能力——这削弱了多语言建模的优势,尤其是在低资源语言上(Arivazhagan等人,2019;Wang等人,2020;Ansell等人,2021)。此外,多语言的“诅咒”意味着,在某些时刻,有限的模型容量阻止了MLMs进一步学习更多语言(Conneau等人,2020a)。这提出了一些有趣的问题:(1)当前的MLMs如何学习跨语言编码和共享信息;(2)我们如何更好地引导MLMs中的信息共享,以实现跨语言共享中的正向知识迁移与负面干扰之间的最佳平衡。 此外,除了技术挑战,MLMs在实践中的应用还面临着社会层面的挑战。尤其是,MLMs的一个限制因素是,为了将它们部署到文化多样的社区中,它们不仅需要在生成多语言文本方面表现出色,而且它们的输出还需要对这些社区的社会文化规范和偏见保持敏感。这就要求多语言模型在功能上也必须具备内在的多文化特性。然而,由于MLMs是基于来自全球多种语言文本的拼接进行训练的,我们可以预期它们会同时编码不同甚至相反的社会偏见。目前,尚不清楚跨文化价值观的互动如何在MLMs中体现出来。此外,已有研究表明,语言模型在实际应用中与人类价值观对齐并不完全,进而开启了关于如何改进语言模型对齐的一条全新研究路线(Shen等人,2023)。 尽管多语言NLP近年来取得了巨大进展,但多文化NLP领域仍处于起步阶段。因此,本论文研究了MLMs在技术和社会挑战方面的问题。具体而言,我们探讨了如何构建更有效的MLMs,以减轻负面干扰,并研究联合多语言训练对MLMs中编码的社会偏见和文化价值观的影响。

成为VIP会员查看完整内容
5

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 5月3日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
38+阅读 · 2024年10月21日
【伯克利博士论文】神经网络中的结构与表征
专知会员服务
47+阅读 · 2024年5月12日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
169+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
微信扫码咨询专知VIP会员