艾伦AI研究所发布最强zero-shot免费问答模型「金刚鹦鹉」:参数量小16倍,比GPT-3问答更强

2021 年 10 月 23 日 新智元



  新智元报道  

来源:arXiv

编辑:LRS

【新智元导读】问答系统一向是NLP 领域的兵家必争之地,最近艾伦AI 研究所也发布了一个问答模型Macaw(金刚鹦鹉),参数量比GPT-3 小了16 倍,只有110亿,zero-shot问答性能还从57%提升到65%!


虽然 OpenAI 的 GPT-3 系统已被证明在包括问答、文本生成等许多任务上非常有效,但它对于许多组织来说仍然相当于是一个「空气模型」,因为只有经过批准的用户才能付费使用。 
 
虽然还有其他一些预训练的语言模型可以用,但没有一个系统能与 GPT-3 的小样本问答性能相匹敌。
 
语言模型又一位霸主登场!
 
艾伦人工智能研究所(Allen Institute for AI, AI2)最近发布了一个新模型Macaw(金刚鹦鹉),一个多功能的生成式问答系统,能够在广泛的问题类型上表现出强大的零样本zero-shot性能。
 
 
Macaw 是一种基于 T5 的语言模型,并且针对问答进行了高度优化,虽然它不如 GPT-3 那样全能,但他的问答能力十分强悍。
 
https://arxiv.org/pdf/2109.02593.pdf
 
在Challenge300 数据集中,尽管 Macaw 的参数量比GPT-3 要小一个数量级(110 亿 vs 1750 亿参数),但Macaw 的表现比 GPT-3 高出 10% 以上。
 
此外,Macaw 既可以根据问题给出答案,也可以根据答案设置问题,甚至能够完成多选问题。更重要的是,Macaw 是免费、公开提供的。 
 
 
下面是一些问答中的例子。
 
Q1:一个小男孩被紧急送往医院急诊室,但急诊医生看到了男孩并拒绝手术。医生说这个男孩是我的儿子,但这个医生却不是男孩的父亲。问:为什么?
 
这是一道典型的脑筋急转弯问题。
 
标准答案:医生是男孩的妈妈
Macaw的答案:他把男孩误认为是他自己的儿子。
 
虽然Macaw的答案并不是我们所期望的解决方案,但这是一个完全合理的回答,可以表明Macaw 至少在表面上处理问题的能力非常厉害。 
 
Q2: 如何让房子导电?
Macaw的答案:用金属漆涂上它
 
Q3: 猫是一个动物,这暗含了什么?
Macaw的答案:它有感觉(feeling)。
 
Q4:猫是动物的错误含义(incorrect implication)是什么?
Macaw的答案:它是人
 
Q5:新生儿可以从完全生长的辣根植物顶部看吗?
Macaw的答案:不可以,因为植物太高了
 
Q6:为什么亚里士多德不会使用手机?
Macaw的答案:因为他出生在手机发明之前
 
Q7:为什么变形虫(amoeba)不能设计软件?
Macaw的答案:因为它缺乏必要的神经元
 
上面是Macaw 回答的比较好的一些例子,但它在实体跟踪和常识性的问题方面的回答效果却不太理想。
 
Q8:想象一个空杯子。现在在杯子里放一枚硬币,然后从杯子里取出硬币。现在杯子里有多少硬币?
 
标准答案:0
Macaw的答案:1
 
Q9:Sally 最喜欢的母牛昨天死了。牛什么时候能复活?
Macaw的答案:过几天
 
从例子上很难量化地和GPT-3 进行比较,所以文章作者收集了一个包含300个挑战性问题的数据集,称为Challenge300,并且尝试使用不同类型的问题来难倒Macaw。
 
研究人员记录了所有尝试过的问题,主要收录标准是Macaw做对与否,而不是优先挑选好的/坏的案例。这些问题可以松散地划分为22个不同类别,但这种分类是近似的,不是十分准确。
 
 
研究人员将Macaw 的问答性能与其他三个著名的QA系统进行了比较:OpenAI的GPT-3,谷歌的T5-CBQA,和来自AI21实验室的Jurassic-1。
 
最终结果Macaw 的得分为75%,而GPT-3和Jurassic-1的得分都是65%,而T5-CBQA 得分为57%。虽然这只是一项测试,但其结果是正向的。
 
根据类型对问题进行分类,研究人员还测量了模型中最容易(最高分数)的问题类型,最左侧的最容易获得了最高平均分数,到右侧的最难/最低平均分数。
 
 
平均而言,这些模型在通用知识(general knowledge)问题上得分最高,例如问“什么是搭便车?”通常可以得到正确答案。但在常识性(commonsense)问题上得分最低,例如都回答不正确“我能用刀切砖头吗?”和一些被精心设计的「假问题」也通常能骗过这些模型,例如“汤姆·汉克斯是哪一年登上月球的?”。
 
在这次测试中,GPT-3和T5-CBQA对一些问题都给出了完美的zero-shot答案,但同样犯了比Macaw 更多的错误。
 
Q10:为什么房子有窗户?
GPT-3的答案:这样你就可以把狗赶出去了。
 
Q11:化油器在汽车发动机中的作用是什么?
GPT-3的答案:这是一种将水转化为汽油的装置。
 
Q12:法官杀死了嫌疑犯。警察逮捕了谁?
T5-CBQA的答案:他的搭档
 
Q13:你如何让婚姻更牢固?
T5-CBQA的答案:我会确保自己永远是正确的
 
Macaw还有另一个很好的功能,可以根据答案设计提出一个问题:
 
问题:小刀是什么做的?
Macaw的答案:金属
 
答案:金属
Macaw的问题:给学生一小块有光泽的反光材料。学生处理的最有可能的材料是什么?
 
艾伦人工智能研究所AI2成立于2014年,其使命是为公益事业开展高影响力人工智能研究和工程。它由微软联合创始人保罗•艾伦(Paul Allen)创建的,由领先的人工智能研究人员奥伦•埃齐奥尼(Oren Etzioni)博士领导。
 
 
AI2坐落于联合湖畔,在人工智能领域拥有超过100名全球最优秀的科学和工程人才,吸引了来自全球不同兴趣和背景的个人。AI2以其团队的多样性和协作性而自豪,并采用面向结果的方法来应对AI中的复杂挑战。
 
除了AI 领域外,保罗艾伦于2014年宣告成立艾伦细胞科学研究所(Allen Institute for Cell Science)。它将以多样的技术与方法,大规模研究细胞这一生命的基本单位,以求理解整合系统中的复杂细胞行为,推进生物医学。
 
 
最著名的当属艾伦脑科学研究所,曾经启动过一个庞大的项目,招募了60名年轻的科学家,对总计4000个小鼠大脑进行切片分析,并通过原位杂交技术(ISH)检测不同基因的表达。这项耗时3年才完成的工作生成的“艾伦小鼠脑图谱(Allen Brain Atlas)”包含8500万张图像,600兆兆字节的数据,相当于2003年整个互联网数据的一半。
 
除学术外,保罗艾伦还拥有2个职业球队:NFL的西雅图海鹰和NBA的波特兰开拓者 。他也是Charter Communications主席、梦工厂股东(应邀加入美国电影艺术与科学学会(AMPAS))、NBA财主之一。他的私家游艇八爪鱼号是全世界最奢华的私家游艇之一。
 
保罗·艾伦曾于1983年罹患霍奇金氏淋巴瘤,后来痊愈。2009年又罹患非霍奇金氏淋巴瘤,一度痊愈,但最后于美国当地时间2018年10月15日下午因非霍奇金氏淋巴瘤并发症逝世,享寿65岁。



参考资料:

https://arxiv.org/pdf/2109.02593.pdf



登录查看更多
0

相关内容

1370亿参数、接近人类水平,谷歌对话AI模型LaMDA放出论文
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
106+阅读 · 2020年12月19日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
论文浅尝 | 重新审视语言模型与知识库的关系
开放知识图谱
0+阅读 · 2021年10月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Building Odia Shallow Parser
Arxiv
0+阅读 · 2022年4月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员