Distributed word representations are popularly used in many tasks in natural language processing, adding that pre-trained word vectors on huge text corpus achieved high performance in many different NLP tasks. This paper introduces multiple high quality word vectors for the French language where two of them are trained on huge crawled French data and the others are trained on an already existing French corpus. We also evaluate the quality of our proposed word vectors and the existing French word vectors on the French word analogy task. In addition, we do the evaluation on multiple real NLP tasks that show the important performance enhancement of the pre-trained word vectors compared to the existing and random ones. Finally, we created a demo web application to test and visualize the obtained word embeddings. The produced French word embeddings are available to the public, along with the fine-tuning code on the NLU tasks and the demo code.


翻译:在自然语言处理的许多任务中,广泛使用分布式文字表达方式,并补充说,在大量文本体上经过预先培训的文字矢量在许多不同的国家语言方案任务中取得了很高的成绩。本文介绍了法语语言的多种高质量的文字矢量,其中两人接受了关于大量爬行的法国数据的培训,其他人则接受了关于已经存在的法国数据的培训。我们还评估了我们提议的文字矢量的质量,以及法语类比任务上现有的法语文字矢量的质量。此外,我们评估了多种真实的国家语言方案任务,这些任务表明,与现有和随机任务相比,预先培训的文字矢量的性能得到了重要的提高。最后,我们创建了一个演示网络应用程序,测试和直观地展示所获得的文字嵌入。制作的法语词嵌入式向公众开放,同时提供关于国家语言系统任务和演示代码的微调码。

0
下载
关闭预览

相关内容

还在修改博士论文?这份《博士论文写作技巧》为你指南
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
已删除
将门创投
4+阅读 · 2017年12月5日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
4+阅读 · 2020年5月25日
Arxiv
3+阅读 · 2019年8月19日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
已删除
将门创投
4+阅读 · 2017年12月5日
人工智能 | 国际会议截稿信息5条
Call4Papers
6+阅读 · 2017年11月22日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员