AI能证明数学数据库中82%的问题了，新SOTA已达成，还是基于Transformer

会员服务 ·

AI能证明数学数据库中82%的问题了，新SOTA已达成，还是基于Transformer

2022 年 5 月 26 日 量子位

明敏发自凹非寺
量子位 | 公众号 QbitAI

不得不说，科学家们最近都在痴迷给AI补数学课了。

这不，脸书团队也来凑热闹，提出了一种新模型，能完全自动化论证定理，并显著优于SOTA。

要知道，随着数学定理愈加复杂，之后再仅凭人力来论证定理只会变得更加困难。

因此，用计算机论证数学定理已经成为一个研究焦点。

此前OpenAI也提出过专攻这一方向的模型GPT-f，它能论证Metamath中56%的问题。

而这次提出的最新方法，能将这一数字提升到82.6%。

与此同时，研究人员表示该方法使用的时间还更短，与GPT-f相比可以将计算消耗缩减到原本的十分之一。

难道说这一次AI大战数学，是要成功了？

还是Transformer

本文提出的方法为一种基于Transformer的在线训练程序。

大致可以分为三步：

第一、在数学证明库中预训练；

第二、在有监督数据集上微调策略模型；

第三、在线训练策略模型和判断模型。

具体来看是利用一种搜索算法，让模型在已有的数学证明库中学习，然后去推广证明更多的问题。

其中数学证明库包括3种，分别是Metamath、Lean和自研的一种证明环境。

这些证明库简单来说，就是把普通数学语言转换成近似于编程语言的形式。

Metamath的主库是set.mm，包含基于ZFC集合论的约38000个证明。

Lean更为人熟知的，是微软那个可以参加IMO赛事的AI算法。Lean库就是为了教会同名算法所有的本科数学知识，并让它学会证明这些定理。

这项研究的主要目标，是为了构建一个证明器，让它可以自动生成一系列合适的策略去论证问题。

为此，研究人员提出了一个基于MCTS的非平衡超图证明搜索算法。

MCTS译为蒙特卡洛树搜索，常用于解决博弈树问题，它因为AlphaGo所被人熟知。

它的运行过程，就是通过在搜索空间中随机抽样来找寻有希望的动作，然后根据这个动作来扩展搜索树。

本项研究采用的思路类似于此。

搜索证明过程从目标g开始，向下搜索方法，逐步发展成一个超图（Hypergraph）。

当出现一个分支下出现空集时，就意味着找到了一个最优证明。

最后，在反向传播过程中，记下超树的节点值和总操作次数。

在这个环节中，研究人员假设了一个策略模型和一个判断模型。

策略模型允许判断模型进行抽样，判断模型可以评估当前策略找到证明方法的能力。

整个搜索算法，就以如上两个模型作为参照。

而这两个模型都是Transformer模型，且权值共享。

接下来，就到了在线训练的阶段。

这个过程中，控制器会将语句发送给异步HTPS验证，并收集训练和证明数据。

然后验证器会将训练样本发送给分布式训练器，并定期同步其模型副本。

实验结果

在测试环节，研究人员将HTPS与GPT-f进行了比较。

后者是OpenAI此前提出的数学定理推理模型，同样基于Transformer。

结果表明，在线训练后的模型可以证明Metamath中82%的问题，远超GPT-f此前56.5%的记录。

在Lean库中，这一模型可以证明其中43%的定理，比SOTA提高了38%，以下是该模型证明出的IMO试题。

不过目前它还不是十全十美。

比如在如下这道题中，它解题用了比原题简便的办法，但这是不对的，研究人员表示这是因为注释中出现了错误。

One More Thing

用计算机论证数学问题，四色定理的证明便是最为人熟知的例子之一。

四色定理是近代数学三大难题之一，它提出“任何一张地图只用四种颜色就能使具有共同边界的国家，着上不同的颜色”。

由于这一定理的论证需要大量计算，在它被提出后100年内，都没有人能完全论证。

直到1976年，在美国伊利诺斯大学两台计算机上，经过1200小时、100亿次判断后，终于可以论证任何一张地图都只需要4种颜色来标记，由此也轰动了整个数学界。

加之随着数学问题愈加复杂，用人力来检验定理是否正确也变得更加困难。

近来，AI界也把目光逐步聚焦在数学问题上。

2020年，OpenAI推出数学定理推理模型GPT-f，可用于自动定理证明。

这一方法可完成测试集中56.5%的证明，超过当时SOTA模型MetaGen-IL30%以上。

同年，微软也发布了可以做出IMO试题的Lean，这意味着AI能做出没见过的题目了。

去年，OpenAI给GPT-3加上验证器后，做数学题效果明显好于此前微调的办法，可以达到小学生90%的水平。

今年1月，来自MIT+哈佛+哥伦比亚大学+滑铁卢大学的一项联合研究表明，他们提出的模型可以做高数了。

总之，科学家们正在努力让AI这个偏科生变得文理双全。

论文地址：
https://arxiv.org/abs/2205.11491

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

关注 0

【ICLR2022】Transformers亦能贝叶斯推断

专知会员服务

25+阅读 · 2021年12月23日

【ICCV2021】基于Transformer 的神经绘画

专知会员服务

23+阅读 · 2021年9月20日

【ICML2021】使用Transformers编码的计算感知神经架构

专知会员服务

18+阅读 · 2021年9月15日

【CVPR2021】面向通用领域自适应的领域共识聚类

专知会员服务

30+阅读 · 2021年5月6日

【CVPR 2021】半监督视频目标分割新算法，实现SOTA性能

专知会员服务

13+阅读 · 2021年4月26日

【2020新书】预训练Transformer模型的文本排序

专知会员服务

63+阅读 · 2020年10月18日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

快了一个0！Meta祭出150亿参数蛋白质大模型，碾压AlphaFold2

新智元

1+阅读 · 2022年7月22日

NAACL 2022 | 机器翻译SOTA模型的蒸馏

PaperWeekly

1+阅读 · 2022年6月28日

神TM的SOTA ，看完谷歌的新论文，我对AI大厂有些失望

夕小瑶的卖萌屋

0+阅读 · 2022年5月29日

用自洽性提升大模型推理能力，谷歌解答基准中75%数学问题，比GPT-3提升20%

机器之心

0+阅读 · 2022年4月12日

视频也可以用扩散模型来生成了，效果很能打：新SOTA已达成 | 谷歌

量子位

1+阅读 · 2022年4月11日

打打字就能指挥算法视频抠图，Transformer掌握跨模态新技能，精度优于现有模型丨CVPR 2022

量子位

0+阅读 · 2022年3月7日

千层Transformer问世！多语种机器翻译水准刷新多项SOTA

新智元

0+阅读 · 2022年3月4日

【ICLR2022】Transformers亦能贝叶斯推断

专知

0+阅读 · 2021年12月23日

专家观点 | 人工智能解决数学题：“大力未必出奇迹”

中国科学院自动化研究所

0+阅读 · 2021年11月24日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

基于分子进化的蛋白质共进化高维互信息模型

国家自然科学基金

4+阅读 · 2015年12月31日

无限闭凸集族凸可行性问题中投影算法的线性收敛

国家自然科学基金

0+阅读 · 2015年12月31日

一种关于高效命题推理极限的新方法：基础，算法和近似

国家自然科学基金

1+阅读 · 2012年12月31日

模型驱动的高可靠图算法构件自动生成研究

国家自然科学基金

0+阅读 · 2012年12月31日

关于AI-半环簇与 Conway半环簇的研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于模糊数据库的大规模复杂模糊本体自动构建与存储关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于成对曲线组合的柔顺机构形状与拓扑优化设计研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于张量分解和非参量密度建模的偏微分方程目标跟踪研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于符号-数值混合计算的多项式优化问题的准确验证

国家自然科学基金

0+阅读 · 2009年12月31日

软件构件的精化、组合和粘合理论研究

国家自然科学基金

0+阅读 · 2009年12月31日

Snapshot Spectral Compressive Imaging Reconstruction Using Convolution and Contextual Transformer

Arxiv

0+阅读 · 2022年7月28日

NAUTS: Negotiation for Adaptation to Unstructured Terrain Surfaces

Arxiv

0+阅读 · 2022年7月27日

Exploring the relationship between performance metrics and cost saving potential of defect prediction models

Arxiv

0+阅读 · 2022年7月27日

Reward Modeling for Mitigating Toxicity in Transformer-based Language Models

Arxiv

0+阅读 · 2022年7月27日

The Sample Complexity of Forecast Aggregation

Arxiv

0+阅读 · 2022年7月26日

Error analysis of a residual-based stabilization-motivated POD-ROM for incompressible flows

Arxiv

0+阅读 · 2022年7月26日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

VIP会员