送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔 - 专知

会员服务 ·

0

送给大模型的「高考」卷：442人联名论文给大模型提出204个任务，谷歌领衔

2022 年 6 月 11 日 机器之心

机器之心报道

编辑：泽南

大规模预训练模型需要大型 benchmark 来进行验证。

在 Jeff Dean 等人 Pathways 架构的首个模型 PaLM 中，研究人员在一个名为 BIG-Bench 的大模型专用基准上与其他算法进行了多项任务测试。近日，谷歌终于将 BIG-Bench 的论文和 GitHub 公开出来。

研究人员表示，该工作历经两年努力完成，论文长达 100 页，作者有 442 人，目前 benchmark 包含的任务已经从 PaLM 论文时期的 150 个增加到超过 200 个。

BIG-bench 是一套用于各种规模语言模型评估的新基准测试，谷歌 AI 负责人 Jeff Dean 点赞了这一工作。

论文《Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models》

论文链接：https://arxiv.org/abs/2206.04615
GitHub：https://github.com/google/BIG-bench

随着规模的不断扩大，语言模型展示了定量改进和新的定性能力。尽管它们具有潜在的变革性影响，但其表现出的新功能特征仍然很差。为了给未来的研究提供更多信息，为颠覆性的新模型能力做好准备，了解语言模型当前和近期的能力和局限性至关重要。为了应对这一挑战，谷歌提出了超越模仿游戏基准（Beyond the Imitation Game Benchmark，BIG-bench）。

BIG-bench 目前由 204 个任务组成，获得了来自 132 个研究机构的 442 位作者贡献。该基准的任务主题多种多样，涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等领域的问题。BIG-bench 专注于被认为超出当前语言模型能力的任务。谷歌在 BIG-bench 上评估了 OpenAI 的 GPT 系列模型、谷歌内部的密集 transformer 架构和 Switch 式稀疏 transformer 的行为，模型规模跨越数百万到数千亿个参数。

此外，还有一组人类专家执行过所有任务，以提供较准确的基线水平。目前对于各类模型的调查结果包括：模型性能和校准都随规模而提高，但绝对值（absolute term）较差（与评估者性能相比）；不同类模型的性能非常相似，但稀疏性有性能增益；逐步和可预测地改进的任务通常涉及大量的知识或记忆部分，而在关键规模上表现出「突破性」行为的任务通常涉及多个步骤或脆弱的指标；在具有模糊背景的环境中，社会偏见通常会随着模型规模的扩大而增加，但可以通过 prompting 来改善。

图 1：在 BIG-bench 上，很多模型总体性能随着体量的增加而提高。但目前看来，所有模型在绝对值（absolute term）方面都表现一般。

图 2：现有基准测试的范围很窄，并且表现出快速饱和的性能。

图 3：BIG-bench 任务的多样性和规模。（a）任务关键词的词云。（b）以样本数量衡量的任务规模分布。

BIG-bench Lite (BBL) 是来自 BIG-bench 的 24 个不同 JSON 任务的一小部分，旨在提供模型性能的规范度量，同时比 BIG-bench 中的 200 多个编程和 JSON 任务的全套评估轻便得多。BBL 上当前模型性能的排行榜如上图所示。

图 4：每个 BIG-bench Lite 任务上的最佳（蓝色）和平均（灰色）人类得分，以及最佳模型配置（栗色）的 BIG-bench Lite 性能。多项选择任务的随机性能由影线标记表示。

谷歌鼓励社区参与者继续提交新的任务，并表示任务将被逐一审查并以滚动方式合并到 BIG-bench 存储库中。任务作者也将包含在未来出版物的作者列表中。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

1

相关内容

BIG-bench

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

45+阅读 · 2022年1月24日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

重磅！Meta AI开源OPT-175B：1750亿参数大模型

重磅！Meta AI开源OPT-175B：1750亿参数大模型

CVer

1+阅读 · 2022年5月4日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

6144块TPU，5400亿参数，会改bug、解读笑话，谷歌刚刚用Pathways训练了一个大模型

6144块TPU，5400亿参数，会改bug、解读笑话，谷歌刚刚用Pathways训练了一个大模型

机器之心

1+阅读 · 2022年4月5日

谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

机器之心

0+阅读 · 2022年3月29日

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

极市平台

0+阅读 · 2022年1月12日

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

机器之心

1+阅读 · 2021年12月31日

Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战

Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战

THU数据派

1+阅读 · 2021年9月6日

本体匹配中的参数和策略调谐问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度神经网络的自动作文评分算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

类进化计算研究：基于可达特性分析的类进化算法理论与应用

国家自然科学基金

1+阅读 · 2012年12月31日

计算机科学中的若干组合问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

随机延时神经网络的吸引子和分岔

国家自然科学基金

1+阅读 · 2012年12月31日

基于偏好信息学习引导的混合性能指标智能优化决策模型与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

具有年龄结构的集合种群中若干进化问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于在线模糊聚类与闭环模糊辨识的非线性系统智能容错控制

国家自然科学基金

0+阅读 · 2009年12月31日

Knowing Where and What: Unified Word Block Pretraining for Document Understanding

Arxiv

0+阅读 · 2022年7月29日

Curriculum Learning for Data-Efficient Vision-Language Alignment

Arxiv

0+阅读 · 2022年7月29日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Contextual Information and Commonsense Based Prompt for Emotion Recognition in Conversation

Arxiv

0+阅读 · 2022年7月27日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员

相关主题

相关VIP内容

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价大语言模型的能力

专知会员服务

20+阅读 · 2022年6月10日

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

5400亿！谷歌「Pathways语言模型」发布，能理解做推理生成代码

专知会员服务

40+阅读 · 2022年4月5日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

45+阅读 · 2022年1月24日

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

BERT、GPT-3等预训练模型大一统？斯坦福Percy Liang、李飞飞等114位作者发布212页综述，阐述大模型机遇与风险

专知会员服务

69+阅读 · 2021年8月19日

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

【GPT-3作者亲解】超大型语言模型少样本学习，109页ppt

专知会员服务

109+阅读 · 2020年12月19日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

谷歌、斯坦福联合发文：我们为什么一定要用大模型？

夕小瑶的卖萌屋

2+阅读 · 2022年7月12日

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

442个作者100页论文！谷歌耗时2年发布大模型新基准BIG-Bench | 开源

量子位

4+阅读 · 2022年6月11日

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

历时2年442位作者132个机构！Google发布语言模型评价新基准BIG-bench，204个任务全面评价语言模型能力，附论文

专知

0+阅读 · 2022年6月10日

重磅！Meta AI开源OPT-175B：1750亿参数大模型

重磅！Meta AI开源OPT-175B：1750亿参数大模型

CVer

1+阅读 · 2022年5月4日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

6144块TPU，5400亿参数，会改bug、解读笑话，谷歌刚刚用Pathways训练了一个大模型

6144块TPU，5400亿参数，会改bug、解读笑话，谷歌刚刚用Pathways训练了一个大模型

机器之心

1+阅读 · 2022年4月5日

谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

谷歌下一代AI架构、Jeff Dean宣传大半年的Pathways终于有论文了

机器之心

0+阅读 · 2022年3月29日

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

Jeff Dean万字长文回顾2021：除了超大的AI模型，谷歌还有啥？

极市平台

0+阅读 · 2022年1月12日

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

机器之心

1+阅读 · 2021年12月31日

Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战

Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战

THU数据派

1+阅读 · 2021年9月6日

相关基金

本体匹配中的参数和策略调谐问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度神经网络的自动作文评分算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

类进化计算研究：基于可达特性分析的类进化算法理论与应用

国家自然科学基金

1+阅读 · 2012年12月31日

计算机科学中的若干组合问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

随机延时神经网络的吸引子和分岔

国家自然科学基金

1+阅读 · 2012年12月31日

基于偏好信息学习引导的混合性能指标智能优化决策模型与方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向大规模数据的机器学习算法研究

国家自然科学基金

9+阅读 · 2011年12月31日

具有年龄结构的集合种群中若干进化问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

文本语义模型和子空间聚类研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于在线模糊聚类与闭环模糊辨识的非线性系统智能容错控制

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Knowing Where and What: Unified Word Block Pretraining for Document Understanding

Arxiv

0+阅读 · 2022年7月29日

Curriculum Learning for Data-Efficient Vision-Language Alignment

Arxiv

0+阅读 · 2022年7月29日

LAD: Language Models as Data for Zero-Shot Dialog

Arxiv

0+阅读 · 2022年7月28日

Contextual Information and Commonsense Based Prompt for Emotion Recognition in Conversation

Arxiv

0+阅读 · 2022年7月27日

Multi-Task Learning for Visual Scene Understanding

Arxiv

29+阅读 · 2022年3月28日

From Show to Tell: A Survey on Image Captioning

Arxiv

15+阅读 · 2021年7月14日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

大家都在搜

智库最新报告

生成式人工智能

国防科技创新

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员