African languages still lag in the advances of Natural Language Processing techniques, one reason being the lack of representative data, having a technique that can transfer information between languages can help mitigate against the lack of data problem. This paper trains Setswana and Sepedi monolingual word vectors and uses VecMap to create cross-lingual embeddings for Setswana-Sepedi in order to do a cross-lingual transfer. Word embeddings are word vectors that represent words as continuous floating numbers where semantically similar words are mapped to nearby points in n-dimensional space. The idea of word embeddings is based on the distribution hypothesis that states, semantically similar words are distributed in similar contexts (Harris, 1954). Cross-lingual embeddings leverages monolingual embeddings by learning a shared vector space for two separately trained monolingual vectors such that words with similar meaning are represented by similar vectors. In this paper, we investigate cross-lingual embeddings for Setswana-Sepedi monolingual word vector. We use the unsupervised cross lingual embeddings in VecMap to train the Setswana-Sepedi cross-language word embeddings. We evaluate the quality of the Setswana-Sepedi cross-lingual word representation using a semantic evaluation task. For the semantic similarity task, we translated the WordSim and SimLex tasks into Setswana and Sepedi. We release this dataset as part of this work for other researchers. We evaluate the intrinsic quality of the embeddings to determine if there is improvement in the semantic representation of the word embeddings.


翻译:非洲语言在自然语言处理技术的进步中仍然落后,原因之一是缺乏代表性数据,拥有一种可以在语言之间传递信息的技术可以帮助缓解数据缺乏问题。本文将Setswana和Sepedi单语文字矢量列列,并使用VecMap为Setswana-Sepedi创建跨语言嵌入器,以便进行跨语言传输。文字嵌入是文字矢量,它代表着连续浮动数字的单词,在那里将语言相似的单词映射到正维维空间的近点。单词嵌入的理念基于分布假设,即状态、语义相似的单词在相似的背景下分布(Harris,1954年)。跨语言嵌入的嵌入会通过为两种经过单独训练的单语矢量创建跨语言嵌入器创建跨语言嵌入。在本文中,Stswana-swanman的Stencialalal-likedalations,我们使用不超语言嵌入的跨语言嵌入语言嵌入了SdeIMMSde-deSdeSde-demandeal ex lading SetSeman ex ex ex ex lade ex ex lade sde ex lade ex ex lade lade ex ex setmandududududududududududududududu sia sia sia sia sia sia sia sia ex ex ex ex ex ex ex ex lading lade ex lade ex ex ex ex ex ex ex ex ex ex lado lade ex laut ex ex lade ex ex laut laut ex laut ex ex ex ex ex ex ex ex ex ex ex ex lautdal ex ex ex ex ex ex ex

0
下载
关闭预览

相关内容

【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
Word Embedding List|ACL 2020 词嵌入长文汇总及分类
PaperWeekly
3+阅读 · 2020年5月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
3+阅读 · 2018年3月2日
VIP会员
相关VIP内容
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
相关资讯
Word Embedding List|ACL 2020 词嵌入长文汇总及分类
PaperWeekly
3+阅读 · 2020年5月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员