题目: Should All Cross-Lingual Embeddings Speak English?

摘要:

最近关于跨语言词嵌入的研究大多以英语为中心。绝大多数词汇归纳评价词典都介于英语和另一种语言之间,在多语言环境下学习时,默认选择英语嵌入空间作为中心。然而,通过这项工作,我们对这些实践提出了挑战。首先,我们证明了中心语言的选择对下游词汇归纳和零标注词性标注性能有显著的影响。其次,我们都扩展了一个以英语为中心的标准评估词典集合,以包括所有使用三角统计的语言对,并为代表不足的语言创建新的词典。对所有这些语言对的现有方法进行评估,有助于了解它们是否适合对来自遥远语言的嵌入进行校准,并为该领域带来新的挑战。最后,在我们的分析中,我们确定了强跨语言嵌入基线的一般准则,扩展到不包括英语的语言对。

成为VIP会员查看完整内容
0
5

相关内容

题目: Are All Good Word Vector Spaces Isomorphic?

摘要: 现有的对齐跨语言单词向量空间的算法假设向量空间是近似同构的。结果,它们在非同构空间上表现很差或完全失败。这种非同构性几乎完全是由语言之间的类型学差异造成的。在这项工作中,我们问非同构是否也是退化字向量空间的一个重要标志。我们在不同的语言之间进行了一系列的实验,这些实验表明,除了固有的类型差异外,语言对之间表现的差异在很大程度上可以归因于可用单语资源的大小,以及单语训练的性质和持续时间(例如,训练不足)。

成为VIP会员查看完整内容
0
7

跨语言实体链接(Cross-lingual entity linking, XEL)的任务是在目标语言知识库(target-language知识库,KB)中查找从源语言文本中提取的提及内容。(X)EL的第一步是生成候选实体,它从目标语言知识库中为每个提到的候选实体检索貌似合理的候选实体列表。基于Wikipedia资源的方法已经在资源相对较多的语言(HRL)领域被证明是成功的,但是这些方法不能很好地扩展到资源较少的语言(LRL),即使有,也只有很少的Wikipedia页面。近年来,迁移学习方法已被证明可以利用相近语言的资源来降低语言学习对资源的需求,但其性能仍远远落后于资源丰富的语言学习。在本文中,我们首先评估了当前低资源XEL的实体候选生成方法所面临的问题,然后提出了三个改进:(1)减少实体提及和知识库条目之间的脱节,(2)提高模型对低资源场景的鲁棒性。这些方法很简单,但是很有效:我们在7个XEL数据集上对我们的方法进行了实验,发现与最先进的基线相比,它们在前30名标准候选召回中平均产生16.9%的收益。我们改进的模型还使端到端XEL的in-KB精度平均提高了7.9%。

成为VIP会员查看完整内容
0
13

主题: Transferring NLP models across languages and domains

摘要: 在过去一年多的时间里,以预训练模型形式进行的迁移学习已经成为NLP领域的主流,许多任务的基准都因而得到极大地提升。在当前的自然语言处理领域中,也同样普遍存在着不同类型的迁移学习。这大致可以从三个维度进行分类:a)源设置和目标设置是否处理相同的任务;b)源域和目标域是否有相同的属性;c)task学习顺序是否相同。报告者从跨语言和跨领域两方面来讲述NLP模型迁移。

下载链接: https://syntaxfest.github.io/syntaxfest19/slides/invited_talk_syntaxfest_plank.pdf

成为VIP会员查看完整内容
0
35

教程题目:Unsupervised Cross-Lingual Representation Learning

教程简介

在本教程中,将会对弱监督、无监督跨语言词表征领域的最新最前沿成果进行一次完整的综述。在简要介绍了监督跨语言词表示的历史之后,重点介绍以下内容:

  1. 如何在资源非常有限以至于无法保证双语监督的情况下引入弱监督以及无监督的跨语言词表征;
  2. 在无监督方法无法高效运行的情况下检验不同训练条件和要求的效果;
  3. 用于弱关联性语言之间的更鲁棒的方法能够改善不稳定以及表现不佳的问题;
  4. 如何综合评价这种表述;
  5. 介绍能从跨语言词表征中获得收益的实际应用(如MT、对话、跨语言序列标记和结构化预测应用、跨语言IR)

组织者:

Sebastian Ruder是伦敦DeepMind的一名研究科学家。在Insight数据分析研究中心完成了自然语言处理和深度学习的博士学位,同时在柏林的文本分析初创公司AYLIEN担任研究科学家。

Anders Søgaard是哥本哈根大学计算机科学自然语言处理与机器学习教授,同时是柏林谷歌的访问科学家。

Ivan Vulić目前担任剑桥大学词汇项目(2015-2020年跨语言词汇习得)的高级研究员。在库鲁汶大学获得了计算机科学博士学位,研究兴趣是自然语言处理、人类语言理解、机器学习理论和应用,信息检索,主要在多语言/跨语言和多模式设置,包括(但不限于)双语词典提取和跨语言语义建模、跨语言和多语言信息检索,分布语义,跨语言文本挖掘和知识转移,语言基础和认知建模的语言,词汇获取、文本表示学习、潜在主题模型、文本数据的概率建模、术语挖掘和对齐、机器翻译、资源稀缺语言的无监督技术、多习惯用法和多模态信息搜索和检索、多模态和视觉/感知增强语义等。

成为VIP会员查看完整内容
Unsupervised Cross-lingual Learning.pdf
0
13

摘要: 对于没有标注资源的语言,从资源丰富的语言中转移知识是命名实体识别(NER)的有效解决方案。虽然现有的方法都是直接从源学习模型转移到目标语言中,但在本文中,我们建议通过一个测试用例的几个类似例子对学习模型进行微调,这样可以利用类似例子中传递的结构和语义信息来帮助预测。为此,我们提出了一种元学习算法,通过计算句子相似度来寻找一种能快速适应给定测试用例的模型参数初始化方法,并提出了构造多个伪ner任务进行元训练的方法。为了进一步提高模型在不同语言间的泛化能力,我们引入了掩蔽机制,并在元训练中增加了一个最大损失项。我们在五种目标语言中以最少的资源进行了大量的跨语言命名实体识别实验。结果表明,我们的方法在整体上显著优于现有的最先进的方法。

成为VIP会员查看完整内容
0
26

摘要: 我们提出了EMU,一个从语义上增强多语言句子嵌入系统。我们的框架使用两个主要组件(语义分类器和语言鉴别器)对预先训练好的多语言句子嵌入进行了微调。语义分类器提高了相关句子的语义相似度,而语言鉴别器通过多语言对抗训练增强了嵌入语的多语言性。我们的实验结果基于几个语言对表明,我们的专门嵌入优于最先进的多语言句子嵌入模型的任务,跨语言意图分类仅使用单语标记的数据。

成为VIP会员查看完整内容
0
22
小贴士
相关VIP内容
专知会员服务
52+阅读 · 2020年5月31日
相关资讯
相关论文
Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization
Wataru Hirota,Yoshihiko Suhara,Behzad Golshan,Wang-Chiew Tan
10+阅读 · 2019年9月15日
Xilun Chen,Claire Cardie
3+阅读 · 2018年8月27日
End-to-end Speech Recognition with Word-based RNN Language Models
Takaaki Hori,Jaejin Cho,Shinji Watanabe
3+阅读 · 2018年8月8日
Jeremy Barnes,Roman Klinger,Sabine Schulte im Walde
8+阅读 · 2018年6月13日
Zhenpeng Chen,Sheng Shen,Ziniu Hu,Xuan Lu,Qiaozhu Mei,Xuanzhe Liu
6+阅读 · 2018年6月7日
Braja Gopal Patra,Dipankar Das,Amitava Das
5+阅读 · 2018年3月18日
Željko Agić,Natalie Schluter
3+阅读 · 2018年3月2日
Mohnish Dubey,Debayan Banerjee,Debanjan Chaudhuri,Jens Lehmann
14+阅读 · 2018年1月16日
Top