95后达摩院实习生击败微软，打破NLP最难任务世界纪录 - 专知

会员服务 ·

0

95后达摩院实习生击败微软，打破NLP最难任务世界纪录

2019 年 7 月 17 日 新智元

新智元报道

编辑：金磊，元子

【新智元导读】阿里AI在常识QA领域的权威数据集CommonsenseQA上刷新世界纪录，超过微软取得第一名，显著提升AI的常识推理能力。而这项技术，是一名叫做叶志秀的95后“实习生”，在达摩院科学家指导下完成的实习成果！来新智元和群，一起讨论。

正所谓长江后浪推前浪，又一个“别人家的孩子多优秀”系列。

最近，一个年轻人火了：95后的实习生在常识QA领域的权威数据CommonsenseQA上刷新了世界纪录！

这位年轻人名叫叶志秀，他的这项工作是在达摩院科学家指导下完成的，并超越了微软，取得了第一名的好成绩。

什么是CommonsenseQA？

CommonsenseQA是为了研究基于常识知识的问答而提出的数据集，比此前的SWAG、SQuAD数据集难度更高。目前最流行的语言模型BERT在SWAG、SQuAD上的性能已经接近或超过人类，但在CommonsenseQA上的准确率还远低于人类。

阿里巴巴达摩院语音实验室提出了AMS方法，显著提升BERT模型的常识推理能力。AMS方法使用与BERT相同的模型，仅预训练BERT，在不提升模型计算量的情况下，将CommonsenseQA数据集上的准确率提升了5.5%，达到62.2%。

CommonsenseQA相关论文已在arXiv上发表，并获得NAACL 2019最佳资源论文。

链接：

https://arxiv.org/pdf/1811.00937.pdf

作者：

Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant（以色列特拉维夫大学、艾伦人工智能研究所）

摘要：

人们通常利用丰富的世界知识和特定语境来回答问题。近期研究主要聚焦于基于关联文档或语境来回答问题，对基础知识几乎没有要求。为了研究使用先验知识的问答，我们提出了一个关于常识问答的新型数据集 CommonsenseQA。为了捕捉关联之外的常识，我们从 ConceptNet (Speer et al., 2017) 中抽取了多个目标概念，它们与某个源概念具备同样的语义关系。

我们让众包工人编写提及源概念的选择题，并区分每个目标概念之间的差别。这鼓励众包工人编写具备复杂语义的问题，而问答这类问题通常需要先验知识。我们通过该步骤创建了 12247 个问题，并用大量强基线模型做实验，证明该新型数据集是有难度的。我们的最优基线基于BERT-large (Devlin et al., 2018)，获得了 56% 的准确率，低于人类准确率（89%）。

下图是构建 CommonsenseQA 数据集的过程示例：

最聪明的AI的常识也不如一只猫

自然语言理解（NLP，Natural Language Processing）被誉为人工智能皇冠上的明珠，而常识推理是其中难度最高的任务之一。

我们所谓的常识，指的是与生俱来、毋须特别学习便已经拥有的判断能力，或是众人皆知、无须解释或加以论证的知识。例如：打雷要下雨（磊欧）；下雨要打伞（嘞奥）。

虽然在机器翻译、阅读理解等常用NLP任务上，AI的表现已接近人类水平，甚至在某些场景下已经超过人类水平，然而一旦涉及到常识推理方面就成了白痴。比如我们看到行人打着伞就能自然的想到外面可能在下雨；而AI可能会分辨出所有伞的种类，却无法做出“外面在下雨”的推断。

在包含1.2万多个常识问题的CommonsenseQA数据集上，现在已经能够达到56.7%的准确率，依然远低于人类的89%准确率。借用图灵奖获得者Yann LeCun的话，就是“最聪明的AI在常识方面都不如一只猫。”

但好在，如今这位阿里达摩院95后实习生的研究，将AI在常识推理方面的能力，向猫的水平推进了一步！

或许不久的将来，将会出现可以听懂人话的“猫”。就像，加菲一样？👇

登录查看更多

8

相关内容

常识推理

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

图神经网络表达能力的研究综述，41页pdf

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

AI研习社

4+阅读 · 2019年5月8日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

IRLAS: Inverse Reinforcement Learning for Architecture Search

IRLAS: Inverse Reinforcement Learning for Architecture Search

Arxiv

4+阅读 · 2018年12月14日

Commonsense for Generative Multi-Hop Question Answering Tasks

Arxiv

4+阅读 · 2018年9月17日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

Variational Knowledge Graph Reasoning

Arxiv

8+阅读 · 2018年3月17日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

VIP会员

相关主题

相关VIP内容

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

图神经网络表达能力的研究综述，41页pdf

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

新质生成式AI赋能产业变革的实践与路径

用于多模态大模型的离散标记化：全面综述

Nature综述：金融网络中的物理学

【CMU博士论文】通信高效且差分隐私的优化方法

相关资讯

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

AI研习社

4+阅读 · 2019年5月8日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

相关论文

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

IRLAS: Inverse Reinforcement Learning for Architecture Search

IRLAS: Inverse Reinforcement Learning for Architecture Search

Arxiv

4+阅读 · 2018年12月14日

Commonsense for Generative Multi-Hop Question Answering Tasks

Arxiv

4+阅读 · 2018年9月17日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions

Arxiv

17+阅读 · 2018年3月20日

Variational Knowledge Graph Reasoning

Arxiv

8+阅读 · 2018年3月17日

Analyzing Language Learned by an Active Question Answering Agent

Arxiv

6+阅读 · 2018年1月23日

大家都在搜

大型语言模型

国防科技创新

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员