机器学习教你学习语言:Duolingo推出CEFR语言检测器

2019 年 10 月 5 日 机器之心
机器学习教你学习语言:Duolingo推出CEFR语言检测器

选自duolingo

作者:Bill McDowell、Burr Settles

机器之心编译

参与:高璇、Geek AI

随着人工智能发展逐渐进入「深水区」,越来越多的研究者把目光投向了使用人工智能增强人类智能的研究领域。 近日,语言学习平台 Duolingo 针对欧洲语言共同参考框架(CEFR)推出了 CEFR 检测器,能够自动为不同层次的语言学习者提供同级学习文本改写服务。


「对! ——我神经过敏,非常,非常过敏,十二万分过敏,过去是这样,现在也是这样; 可您干吗偏偏说人家疯了呢? 犯了这种病,感觉倒没失灵,倒没迟钝,反而敏锐了。 尤其是听觉,分外灵敏。 天上人间的一切声息全都听见。 阴曹地府的种种声音也在耳边。 那怎么是疯了呢? 听! 瞧我跟您谈这一切,有多精神,有多镇静」。


这是埃德加·爱伦·坡(Edgar Allan Poe)小说《泄密的心》(The Tell-Tale Heart)中一个神经过敏的角色的内心独白,它以一种让人仿佛身临其境的感觉开头,吸引了广大的读者,也为我们提供了向「多邻国」(Duolingo)语言学习故事的读者展示的引人入胜的素材。 但是对我们的学习者来说,英语常常是他们的第二语言,因此我们努力将这种材料改编成更简单的形式,同时又保留其核心内容。 例如,我们可以将以上段落重写为以下文字,以供英语初学者阅读学习:


「对! ——我神经过敏,但我疯了吗? 犯了这种病,听觉感觉反而敏锐了。 天堂人间地狱的一切声息都可听见。 那怎么是疯了呢? 听! 我能跟您谈论这一切」。


这项文本改编任务对我们来说是一个艰巨的挑战,即如何有效地为各个阶段的学习者生成可学内容——不仅是我们的语言学习故事,还包括播客和「多邻国」产品的其它功能。 因此,我们构建了半自动的机器学习系统,以帮助我们针对于不同的语言熟悉程度进行的内容创建过程(根据 CEFR 标准进行衡量)。 值得一提的是,我们已构建了 CEFR 检测器(Checker)来帮助实现语言转换,并且检查跨语言的内容是否适合初学者、中级学习者和高级学习者。 在这里,我们也会将这个工具提供给语言教育者和公众! 下面将详细介绍其用途和使用方法。


CEFR 和 CEFR 检测器


欧洲语言共同参考框架(Common European Framework of Reference,CEFR)是一种语言熟练程度标准,根据学习者的语言能力将其分为初学者、中级学习者和高级学习者。 这些级别通常被细分为 A1、A2、B1、B2、C1 和 C2,与上图所示的不同熟练程度相对应。 根据「Can do…」的句式等评估学习者在听力、阅读、写作和口语交际能力方面的水平。 这些语句的范围从「可以理解并做出基本的问候」(初学者水平)一直到「可以写出关于复杂主题的结构良好的详细文本」(高级水平)。


有了 CEFR 标准,我们可以将改写任务视为: 将一段中级学习者(例如 B1)可以理解的文本修改为内容相同的文本,同时初学者(例如 A1 或 A2)可以理解这段修改后的文本。 有时,我们甚至需要把 A2 级别的文本改写为 A1! 这通常需要将语言的词汇、语法或习惯用语以及与文化相关的各个方面简化为不同级别的学习者更容易理解的形式。 我们的 CEFR 检测器通过评估 CEFR 等级来辅助此过程,检测器将测试学习者可以在哪个 CEFR 等级下,理解改编文本中的每个单词。 例如,下面的截图展示了该工具如何将原始爱伦·坡原文的一些单词评估为 C1 或 C2 级别(红色高亮表示),并在简化文本中将最高级的单词(「nervous」)评估为 B1 级别(橙色高亮表示)。


该工具提供了数十万个英语、西班牙语、法语、意大利语、德语和葡萄牙语单词的 CEFR 评估值,我们今天将发布其中两种语言(英语和西班牙语)的公开版本! 通过利用下文描述的人工智能机器学习模型,我们可以提供海量的词汇表和多种语言的评估值。


人工智能的部分


CEFR 检测器中的彩色文本可视化结果取决于多种语言中成千上万个单词的 CEFR 等级——如果我们的课程专家进行手工标记,成本将极其高昂、令人抓狂。 我们通过使用数千个人工标注的 CEFR 英语、西班牙语和法语单词标签训练一个机器学习系统,并使该模型可以泛化到许多其它语言的数十万个单词上,最终降低了成本。 这种有序回归学习模型将考虑一个单词及其源语言,并预测该单词的目标学习者的 CEFR 等级(A1、A2、B1、B2 或 C)。


我们使用迁移学习和领域自适应技术,同时依靠与语言无关的特征将模型泛化到新的语言上。 也就是说,模型中的特征包括多语言单词嵌入(MWE)和通过电影字幕估计的单词语料库频率。 MWE 将单词映射到一个 300 维的空间中,在这个空间中,出现在多语言的语料库中的相似特征和语义上下文中的单词会距离较近,从而提供了语言无关的单词「含义」的表征,简化后的三维空间如图所示


CEFR 往往要求依赖于某些主题下的语义信息的交际能力(例如,一个人是否可以在涉及问候、个人生活、食物、家庭的「日常」环境中进行交互),因此这些 MWE 和语料库频率直观上看是符合客观事实的。 此外,我们还希望可以做这样的安排: 让学习者先学习常见的语言形式,然后学习不常用的语言形式。


为什么要使用人工智能技术呢? 为什么不简单地将 CEFR 英语单词表翻译成其他语言呢? 不妨设想一下,在英语环境中,我们说「I am hungry」,而西班牙语中会说「tengo hambre」(字面意思是「我饿了」)。 这两种表达都是 A1 级。 但是,如果将这些表达形式逐字地翻译为另一种语言,则最终会得到西班牙语形容词 hambriento(对应英文「hungry」)或英语名词「hunger」(对应西班牙语「hambre」),它们实际上都是 B1 级单词。 除此之外,语言之间惯用语表达的不匹配使我们很难简单地翻译单词表。 我们发现,我们对词频和语义建模的方法可以帮助我们做得更好。


结语


CEFR 检测器是我们目标语言多样、熟练程度不同的学习者改写文本内容的过程中的一个关键部分。 我们希望它的发布能对其它课程开发人员构建「多邻国」以外的语言学习资源有所帮助,并希望它的存在能进一步促进 NLP 和机器学习研究,从而催生更多增强类似工具的应用程序。

参考链接: https://cefr.duolingo.com
https://making.duolingo.com/the-duolingo-cefr-checker-an-ai-tool-for-adapting-learning-content



文为机器之心编译,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
0

相关内容

介绍

这本书在保持非常务实的教导和结果导向付出很大的精力。构建聊天机器人不只是完成一个教程或遵循几个步骤,它本身就是一种技能。这本书肯定不会用大量的文本和过程让你感到无聊;相反,它采用的是边做边学的方法。到目前为止,在你的生活中,你肯定至少使用过一个聊天机器人。无论你是不是一个程序员,一旦你浏览这本书,你会发现构建模块的聊天机器人,所有的奥秘将被揭开。建立聊天机器人可能看起来很困难,但这本书将让你使它如此容易。我们的大脑不是用来直接处理复杂概念的;相反,我们一步一步地学习。当你读这本书的时候,从第一章到最后一章,你会发现事情的进展是多么的清晰。虽然你可以直接翻到任何一章,但我强烈建议你从第一章开始,因为它肯定会支持你的想法。这本书就像一个网络系列,你在读完一章之后就无法抗拒下一章的诱惑。在阅读完这本书后,你所接触到的任何聊天机器人都会在你的脑海中形成一幅关于聊天机器人内部是如何设计和构建的画面。

这本书适合谁?

这本书将作为学习与聊天机器人相关的概念和学习如何建立他们的一个完整的资源。那些将会发现这本书有用的包括: Python web开发人员希望扩大他们的知识或职业到聊天机器人开发。 学生和有抱负的程序员想获得一种新的技能通过亲身体验展示的东西,自然语言爱好者希望从头开始学习。 企业家如何构建一个聊天机器人的伟大的想法,但没有足够的技术关于如何制作聊天机器人的可行性信息。 产品/工程经理计划与聊天机器人相关项目。

如何使用这本书?

请记住,这本书的写作风格和其他书不一样。读这本书的时候要记住,一旦你完成了这本书,你就可以自己建造一个聊天机器人,或者教会别人如何建造一个聊天机器人。在像阅读其他书籍一样阅读这本书之前,务必记住以下几点:

  • 这本书涵盖了构建聊天机器人所需的几乎所有内容,而不是现有内容。
  • 这本书是关于花更多的时间在你的系统上做事情的,这本书就在你身边。确保您执行每个代码片段并尝试编写代码;不要复制粘贴。
  • 一定要按照书中的步骤去做;如果你不理解一些事情,不要担心。你将在本章的后面部分了解到。
  • 可以使用本书所提供的源代码及Jupyter NoteBook作为参考。

内容概要

  • Chapter 1: 在本章中,你将从商业和开发人员的角度了解与聊天机器人相关的事情。这一章为我们熟悉chatbots概念并将其转换为代码奠定了基础。希望在本章结束时,你会明白为什么你一定要为自己或你的公司创建一个聊天机器人。
  • Chapter 2: 在本章中会涉及聊天机器人的自然语言处理,你将学习到聊天机器人需要NLP时应该使用哪些工具和方法。这一章不仅教你在NLP的方法,而且还采取实际的例子和演示与编码的例子。本章还讨论了为什么使用特定的NLP方法可能需要在聊天机器人。注意,NLP本身就是一种技能。
  • Chapter 3: 在本章中,你将学习如何使用像Dialogflow这样的工具以一种友好而简单的方式构建聊天机器人。如果你不是程序员,你肯定会喜欢它,因为它几乎不需要编程技能。
  • Chapter 4:在本章中,你将学习如何以人们想要的方式构建聊天机器人。标题说的很艰难,但一旦你完成了前一章,你会想要更多,因为这一章将教如何建立内部聊天机器人从零开始,以及如何使用机器学习算法训练聊天机器人。
  • Chapter 5:在本章中,部署你的聊天机器人纯粹是设计给你的聊天机器人应用一个最后的推动。当你经历了创建聊天机器人的简单和艰难的过程后,你肯定不想把它留给自己。你将学习如何展示你的聊天机器人到世界使用Facebook和Slack,最后,整合他们在你自己的网站。
成为VIP会员查看完整内容
Building Chatbots with Python.pdf
0
53

《快速Python书籍,第三版》是由Python权威Naomi Ceder编写的关于Python语言的全面指南。作为一名熟练的教师,她完美地平衡了语言的细节和你处理任何任务所需的洞察力和建议。大量相关的例子和边做边学的练习可以帮助你第一次掌握每个重要的概念。无论您是抓取网站还是玩弄嵌套元组,您都会欣赏这本书的清晰、重点和对细节的关注。

这是Manning受欢迎的《快速Python》一书的第三版,对优雅的Python编程语言及其著名的易于阅读的语法进行了清晰、清晰的介绍。这是为初学Python的程序员编写的,最新的版本包含了新的练习。它简明扼要地介绍了其他语言共有的特性,同时详细介绍了Python的全面标准函数库和独特的特性。

成为VIP会员查看完整内容
0
45
小贴士
相关资讯
何晖光:多模态情绪识别及跨被试迁移学习
深度学习大讲堂
15+阅读 · 2019年4月23日
这可能是学习Python最好的免费在线电子书
程序猿
29+阅读 · 2018年5月17日
Scikit-learn玩得很熟了?这些功能你都知道吗?
大数据文摘
4+阅读 · 2018年5月13日
机器学习各种熵:从入门到全面掌握
AI研习社
6+阅读 · 2018年3月22日
Python & 机器学习之项目实践 | 赠书
人工智能头条
9+阅读 · 2017年12月26日
2017年度图灵最受欢迎Python图书TOP10
图灵教育
4+阅读 · 2017年12月22日
如何入门Python与机器学习 | 赠书
CSDN大数据
7+阅读 · 2017年11月12日
相关论文
Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector
Qi Fan,Wei Zhuo,Chi-Keung Tang,Yu-Wing Tai
6+阅读 · 3月31日
Bernhard Schölkopf
4+阅读 · 2019年11月24日
Text-to-Image Synthesis Based on Machine Generated Captions
Marco Menardi,Alex Falcon,Saida S. Mohamed,Lorenzo Seidenari,Giuseppe Serra,Alberto Del Bimbo,Carlo Tasso
3+阅读 · 2019年10月9日
Myle Ott,Sergey Edunov,David Grangier,Michael Auli
3+阅读 · 2018年6月1日
Ahmet Iscen,Giorgos Tolias,Yannis Avrithis,Ondrej Chum
5+阅读 · 2018年3月29日
Keze Wang,Xiaopeng Yan,Dongyu Zhang,Lei Zhang,Liang Lin
5+阅读 · 2018年3月27日
Jiayuan Gu,Han Hu,Liwei Wang,Yichen Wei,Jifeng Dai
4+阅读 · 2018年3月19日
Pingping Zhang,Wei Liu,Huchuan Lu,Chunhua Shen
4+阅读 · 2018年2月19日
Jihyung Moon,Hyochang Yang,Sungzoon Cho
4+阅读 · 2018年1月26日
Oriol Vinyals,Charles Blundell,Timothy Lillicrap,Koray Kavukcuoglu,Daan Wierstra
7+阅读 · 2017年12月29日
Top