机器学习教你学习语言:Duolingo推出CEFR语言检测器

2019 年 10 月 5 日 机器之心

选自duolingo

作者:Bill McDowell、Burr Settles

机器之心编译

参与:高璇、Geek AI

随着人工智能发展逐渐进入「深水区」,越来越多的研究者把目光投向了使用人工智能增强人类智能的研究领域。 近日,语言学习平台 Duolingo 针对欧洲语言共同参考框架(CEFR)推出了 CEFR 检测器,能够自动为不同层次的语言学习者提供同级学习文本改写服务。


「对! ——我神经过敏,非常,非常过敏,十二万分过敏,过去是这样,现在也是这样; 可您干吗偏偏说人家疯了呢? 犯了这种病,感觉倒没失灵,倒没迟钝,反而敏锐了。 尤其是听觉,分外灵敏。 天上人间的一切声息全都听见。 阴曹地府的种种声音也在耳边。 那怎么是疯了呢? 听! 瞧我跟您谈这一切,有多精神,有多镇静」。


这是埃德加·爱伦·坡(Edgar Allan Poe)小说《泄密的心》(The Tell-Tale Heart)中一个神经过敏的角色的内心独白,它以一种让人仿佛身临其境的感觉开头,吸引了广大的读者,也为我们提供了向「多邻国」(Duolingo)语言学习故事的读者展示的引人入胜的素材。 但是对我们的学习者来说,英语常常是他们的第二语言,因此我们努力将这种材料改编成更简单的形式,同时又保留其核心内容。 例如,我们可以将以上段落重写为以下文字,以供英语初学者阅读学习:


「对! ——我神经过敏,但我疯了吗? 犯了这种病,听觉感觉反而敏锐了。 天堂人间地狱的一切声息都可听见。 那怎么是疯了呢? 听! 我能跟您谈论这一切」。


这项文本改编任务对我们来说是一个艰巨的挑战,即如何有效地为各个阶段的学习者生成可学内容——不仅是我们的语言学习故事,还包括播客和「多邻国」产品的其它功能。 因此,我们构建了半自动的机器学习系统,以帮助我们针对于不同的语言熟悉程度进行的内容创建过程(根据 CEFR 标准进行衡量)。 值得一提的是,我们已构建了 CEFR 检测器(Checker)来帮助实现语言转换,并且检查跨语言的内容是否适合初学者、中级学习者和高级学习者。 在这里,我们也会将这个工具提供给语言教育者和公众! 下面将详细介绍其用途和使用方法。


CEFR 和 CEFR 检测器


欧洲语言共同参考框架(Common European Framework of Reference,CEFR)是一种语言熟练程度标准,根据学习者的语言能力将其分为初学者、中级学习者和高级学习者。 这些级别通常被细分为 A1、A2、B1、B2、C1 和 C2,与上图所示的不同熟练程度相对应。 根据「Can do…」的句式等评估学习者在听力、阅读、写作和口语交际能力方面的水平。 这些语句的范围从「可以理解并做出基本的问候」(初学者水平)一直到「可以写出关于复杂主题的结构良好的详细文本」(高级水平)。


有了 CEFR 标准,我们可以将改写任务视为: 将一段中级学习者(例如 B1)可以理解的文本修改为内容相同的文本,同时初学者(例如 A1 或 A2)可以理解这段修改后的文本。 有时,我们甚至需要把 A2 级别的文本改写为 A1! 这通常需要将语言的词汇、语法或习惯用语以及与文化相关的各个方面简化为不同级别的学习者更容易理解的形式。 我们的 CEFR 检测器通过评估 CEFR 等级来辅助此过程,检测器将测试学习者可以在哪个 CEFR 等级下,理解改编文本中的每个单词。 例如,下面的截图展示了该工具如何将原始爱伦·坡原文的一些单词评估为 C1 或 C2 级别(红色高亮表示),并在简化文本中将最高级的单词(「nervous」)评估为 B1 级别(橙色高亮表示)。


该工具提供了数十万个英语、西班牙语、法语、意大利语、德语和葡萄牙语单词的 CEFR 评估值,我们今天将发布其中两种语言(英语和西班牙语)的公开版本! 通过利用下文描述的人工智能机器学习模型,我们可以提供海量的词汇表和多种语言的评估值。


人工智能的部分


CEFR 检测器中的彩色文本可视化结果取决于多种语言中成千上万个单词的 CEFR 等级——如果我们的课程专家进行手工标记,成本将极其高昂、令人抓狂。 我们通过使用数千个人工标注的 CEFR 英语、西班牙语和法语单词标签训练一个机器学习系统,并使该模型可以泛化到许多其它语言的数十万个单词上,最终降低了成本。 这种有序回归学习模型将考虑一个单词及其源语言,并预测该单词的目标学习者的 CEFR 等级(A1、A2、B1、B2 或 C)。


我们使用迁移学习和领域自适应技术,同时依靠与语言无关的特征将模型泛化到新的语言上。 也就是说,模型中的特征包括多语言单词嵌入(MWE)和通过电影字幕估计的单词语料库频率。 MWE 将单词映射到一个 300 维的空间中,在这个空间中,出现在多语言的语料库中的相似特征和语义上下文中的单词会距离较近,从而提供了语言无关的单词「含义」的表征,简化后的三维空间如图所示


CEFR 往往要求依赖于某些主题下的语义信息的交际能力(例如,一个人是否可以在涉及问候、个人生活、食物、家庭的「日常」环境中进行交互),因此这些 MWE 和语料库频率直观上看是符合客观事实的。 此外,我们还希望可以做这样的安排: 让学习者先学习常见的语言形式,然后学习不常用的语言形式。


为什么要使用人工智能技术呢? 为什么不简单地将 CEFR 英语单词表翻译成其他语言呢? 不妨设想一下,在英语环境中,我们说「I am hungry」,而西班牙语中会说「tengo hambre」(字面意思是「我饿了」)。 这两种表达都是 A1 级。 但是,如果将这些表达形式逐字地翻译为另一种语言,则最终会得到西班牙语形容词 hambriento(对应英文「hungry」)或英语名词「hunger」(对应西班牙语「hambre」),它们实际上都是 B1 级单词。 除此之外,语言之间惯用语表达的不匹配使我们很难简单地翻译单词表。 我们发现,我们对词频和语义建模的方法可以帮助我们做得更好。


结语


CEFR 检测器是我们目标语言多样、熟练程度不同的学习者改写文本内容的过程中的一个关键部分。 我们希望它的发布能对其它课程开发人员构建「多邻国」以外的语言学习资源有所帮助,并希望它的存在能进一步促进 NLP 和机器学习研究,从而催生更多增强类似工具的应用程序。

参考链接: https://cefr.duolingo.com
https://making.duolingo.com/the-duolingo-cefr-checker-an-ai-tool-for-adapting-learning-content



文为机器之心编译,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
0+

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

随着技术的传播,世界各地的人们比以往任何时候都更加紧密地联系在一起,无缝沟通和理解的需求变得至关重要。根据Simons 2018年的研究,世界上现存的语言有7097种。然而,语料中,大多数成对的语言最多有几百到几千个平行的句子,而且成对的语言数量有限。由于统计机器翻译(SMT)和神经机器翻译(NMT)都是需要大量数据的机器学习方法,因此缺乏数据是训练合适机器翻译(MT)系统的一个严重问题。

Tom Kocmi的博士论文《Exploring Benefits of Transfer Learning in Neural Machine Translation》(《探索迁移学习在神经机器翻译中的益处》)提出相关的迁移学习技术,并提供了详细地分析。论文展示了几种利用基于大量资源语言对训练的模型来提升少量资源情况下的模型训练。在分析过程中,作者发现:

  • 迁移学习同时适用于少量资源和大量资源的语言对,并且比随机初始化训练的性能更好。
  • 迁移学习在神经机器翻译中没有其他领域所知的负面影响,可以作为神经机器翻译实验的初始化方法。
  • 结果表明,在迁移学习中,平行语料库的数量比语言对的相关性更重要。
  • 作者观察到,迁移学习是一种更好的初始化技术,即使两个模型面向的语言没有交集,性能也能得到提升。

除了上述主要的贡献,论文也描述其他几个研究的想法,包括作者对Czech-English平行语料库的贡献(Bojar et al., 2016a)、使用预训练词嵌入的实验(Kocmi and Bojar, 2017c)、使用子词信息的词嵌入(Kocmi and Bojar, 2016)、神经语言识别工具(Kocmi and Bojar, 2017b)。另外,作者还为一个sequence-to-sequence的研究框架Nerual Monkey(Helcl et al., 2018)的实现做了贡献。

博士论文《Exploring Benefits of Transfer Learning in Neural Machine Translation》的内容大致如下:

  • 简介
    • 贡献
    • 论文结构
  • 背景
    • 语言资源
    • LanideNN:语言识别工具
    • 训练数据
    • 机器翻译评价
  • 神经机器翻译
    • 词嵌入
    • 子词表示
    • 神经机器翻译架构
    • 神经机器翻译模型设置
    • 度量训练过程
  • 迁移学习
    • 术语
    • 域适应
    • 迁移学习
    • 冷启动迁移学习
    • 冷启动直系迁移
    • 冷启动词汇变换
    • 热启动迁移学习
    • 热启动和冷启动对比
    • 相关工作
    • 总结
  • 分析
    • 负迁移
    • 共享语言的位置是否影响迁移学习
    • 语言相关性和数据量
    • 语言特征和更好的初始化
    • 迁移学习分析汇总
    • 案例:反翻译迁移学习
  • 总结
    • 生态追踪
    • 结束语

成为VIP会员查看完整内容
11+
0+
Top