笔记 | 什么是MUSE benchmark

MUSE全称叫:Multilingual Unsupervised and Supervised Embedding,这是跨语言做Embedding的一个方法,Python supported。
忽然之间实验室冒出了4位兄弟做Machine Translation,惊叹之余将上周Meeting遇到的疑问记录下来。

一位兄弟报的是这篇paper:Joulin, Armand, et al. "Loss in translation: Learning bilingual word mapping with a retrieval criterion."Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.

Facebook AI Research的Armand,介绍说在斯坦福和李飞飞工作过

直接Google搜到关于MUSE的FacebookResearch Github,链接在这:facebookresearch/MUSE

难怪Armand老哥用MUSE~,我这里就来大概讲讲MUSE的思路:

MUSE大致思路

它其实是基于这么一个思路:

如果我把语言的每个语言的词通过某种Embedding的方式投射到某个空间里,例如X语言和Y语言,在空间的分布会是这个样子:

直接映射X语言和Y语言到空间

而如果通过Embedding能够获得词的意思,那么即使不同语言,也会出现意思相近的词在空间上的距离比较近,例如在X语言中「公司、企业、组织」这些词在空间的距离应该比较靠近,而「公司」和「马路」的距离则应该比较远;在Y语言中Company、Enterprise、Organization的空间距离应该也必将靠近,而Comapny和Road的距离则会比较远。

基于以上的理论,那么存不存在一种可能,就是某种语言X,通过某种变换W,将X变换成WX后映射到语言Y的空间上,使得WX与Y重叠,然后意思相同的词语在某一块区域。

X通过变换后与Y的距离

那这样,我通过某种计算,就能够找到公司与Company这两个意思相同的词了。

更完美的情况就是如以下的了:

完美的匹配

记得论文中写,英文和西班牙文通过这样的映射,词语间的匹配可高达84%,而中文只有57.9%,为啥呢?

啊,找到了论文的数据

首先是通过这样的对应,可以省去人工生成词典这件事情,映射映射就能生成字典了,但是无监督的方式会有什么问题呢?

例如中文和英文的对应,其实两门语言使用情景不太一样,例如英国是Queen和King经常在一起,中国说不定是皇上和婢女经常在一起,那这样的unsupervised就会出现问题了(随便举例子)。

但是从另一个角度来讲,西班牙和英文能够84%的效果,说不定往后还真可以成为一个好方法,至少是Benchmark了。Meeting的时候,某兄弟还提出来反向思考这件事情,是不是可以将这样的方法运用到社会学,去寻找两种文化间的差异 2333333,还挺有道理的。

具体的介绍,还是先好好看Github的介绍吧~

参考资料:

[1]:facebookresearch/MUSE

[2]:research.fb.com/people/

[3]:Joulin, Armand, et al. "Loss in translation: Learning bilingual word mapping with a retrieval criterion."Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018.

发布于 2019-03-15 03:57