Multilinguality is gradually becoming ubiquitous in the sense that more and more researchers have successfully shown that using additional languages help improve the results in many Natural Language Processing tasks. Multilingual Multiway Corpora (MMC) contain the same sentence in multiple languages. Such corpora have been primarily used for Multi-Source and Pivot Language Machine Translation but are also useful for developing multilingual sequence taggers by transfer learning. While these corpora are available, they are not organized for multilingual experiments and researchers need to write boilerplate code every time they want to use said corpora. Moreover, because there is no official MMC collection it becomes difficult to compare against existing approaches. As such we present our work on creating a unified and systematically organized repository of MMC spanning a large number of languages. We also provide training, development and test splits for corpora where official splits are unavailable. We hope that this will help speed up the pace of multilingual NLP research and ensure that NLP researchers obtain results that are more trustable since they can be compared easily. We indicate corpora sources, extraction procedures if any and relevant statistics. We also make our collection public for research purposes.


翻译:多语言多语言多语种公司(MMC)以多种语言提供相同的句子。这种公司主要用于多源和主控语言机器翻译,但对于通过转移学习开发多语种序列标记也有用。虽然这些公司可以使用,但并不是为多语种实验组织起来,研究人员需要每次使用所述公司时都编写锅炉代码。此外,由于没有正式的MMC收集工作难以与现有方法进行比较,因此我们介绍我们如何建立一个统一和系统化的多语种混合语言存储库的工作。我们还为没有官方分裂的Corbora提供培训、开发和测试。我们希望这将有助于加快多语种NLP研究的步伐,并确保NLP研究人员获得更容易比较的结果。我们还指出公司来源、提取程序(如果有的话)和相关的统计数据,我们还为公共研究目的收集。

0
下载
关闭预览

相关内容

Processing 是一门开源编程语言和与之配套的集成开发环境(IDE)的名称。Processing 在电子艺术和视觉设计社区被用来教授编程基础,并运用于大量的新媒体和互动艺术作品中。
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
94+阅读 · 2020年5月31日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
76+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
24+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
15+阅读 · 2018年12月24日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】图上的表示学习综述
机器学习研究会
12+阅读 · 2017年9月24日
相关论文
Arxiv
6+阅读 · 2019年9月4日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
3+阅读 · 2018年12月18日
Arxiv
10+阅读 · 2018年3月22日
Arxiv
5+阅读 · 2018年1月18日
Arxiv
3+阅读 · 2017年12月18日
Top
微信扫码咨询专知VIP会员