格数致知:走向对世界的深度认知

11 月 8 日 专知

前言
这是我们在人工智能发展背景下的一篇学术观点文章。面对“黑箱”方式的人类大脑,风云莫测变幻的自然世界与社会发展,我们真可谓知之不多。在追求对各种世界认知的同时,我们也在思考获得知识的最终形式是什么?由此本文力图采取“大胆假设学术新思想,小心求证理论新方法”的探讨方式。即勇于发展前人学术思想,推出了“格数致知”的见解。同时又包容具体实例说明“格数致知”的实施方式并验证新方法。我们认识到该见解需求长久的质疑与完善。这犹如人工智能定义本身仍在讨论和发展中。由于我们专业知识与工程背景的局限性,特别希望听到同行或不同领域研究人员的批评指正。

本文第一版曾于2018年12月19日在预印本国际公开网站上发表。本文是2019年6月5日终版(第三版)的缩写版本,在《科技纵览》上发表。终版全文(包括实例具体介绍与引用文献) 可见:https://arxiv.org/abs/1901.01834


“格数致知”是集成东西方哲学家思想而发展出的新提法。它可以具体解释为: 推究事物之内在本源,获取知识之数学表达。我们基于人工智能发展背景对这个学术思想展开探讨,从机器学习研究视角讨论智能机器最终发展目标,以及两种知识表达及其与“格数致知”的关联。在给出客观评价元准则方法论之后,针对人工智能在国家发展或治理中一个客观综合评价应用实例,说明“格数致知”思想的广泛应用前景及其可能存在的问题。


人类文明发展的进化史是根据应用工具中的材料来划分的。人类创造工具,工具改变人类。人工智能作为一种新的工具已经远远超出传统工具的内涵,智能机器会被赋予更多人类功能属性 ( 比如对话机器人中包含价值观或文化背景 ), 它对人类未来生活方式将会带来更为深刻的改变。因此人工智能学科大大超越其他学科的基础原理范围,涉及哲学、人文学、社会学、认知科学、心理学、语言学、知识科学、信息科学、计算科学、工程科学等诸多学科的内容。


面对人工智能研究发展中学术思想观点讨论的主题,我们无法避免地要有哲学思想视角的讨论。在人工智能经典教材《模式分类》中杜达等人指出,“那是什么?”(What is that ?)同样“是哲学知识论所面临的中心问题:即探寻知识的本质”(It has been a central theme in the discipline of philosophical epistemology,the study of the nature of knowledge)。考虑人工智能宏大的学科 内涵,我们试图从“哲学思想与计算建模”的关联视角予以探讨。因为人工智能必然要落实到以计算模型为实体,这种计算层面的视角可以直接导向许多问题的核心与本质。


我们借鉴东西方哲学家学术思想,提出“格数致知”说法,目标是继承与发展前人学术思想。为此我们采取吸取先贤思想中积极内涵与现代理解的立场来解释有关学术观点,而不是原有思想本意的考证。第一是中国先哲老子 ( 约公元前 571 年—公元前 471 年 ) 提出的“道生万物”。该思想的原文是:“道生一,一生二,二生三,三生万物。”老子的观点包含诸多智慧要点,其中有宇宙万物演变而来、由简至繁、自有规律、“道”乃唯一源泉。可以理解“道”或“源”也成为科学家追求科学研究的目标之一。爱因斯坦曾终生致力于发展物理世界中的统一理论。他特别强调“自然乃最简洁且可理解的数学思想之实现”(Nature is the realization of the simplest conceivable mathematical ideas)。


第二是古希腊哲学家毕达哥拉斯( 约公元前 570 年—公元前 495 年 ) 提出的“万物皆数”的学术思想。从现代意义上可以理解为将“数”归结为万物本源(尽管毕达哥拉斯原有认知限于有理数范畴内)。客观世界中实体万物的划分及其时空变化是离不开“数”的表达来体现的。这种推论同样适用于主观世界中的虚拟万物。只有应用“数”方能辨识和解释所有万物,这也成为人能够“感知”或“认知”万物的基础。“数”为万物本源的另一个理解是“数”乃独立于并先于万事万物。由此产生了“数与道”之间的本源问题。


第三是中国《礼记 • 大学》篇中提出的“格物致知”思想,相传为曾参 ( 公元前 505 年—公元前 435 年 ) 所作。它可以解释为:探察事物,获取知识。中国历史上曾应用“格致”一词表示研究事物的学问。早期也曾用于英文“Science”的翻译,之后被“科学”术语所取代。从人文或科学背景理解其重要内涵,“致知”应为人生或科学目标,“格物”方是必然路径。


综合上述东西方哲学家学术思想,“格数致知”提法可以简要解释为“推究事物之内在本源 , 获取知识之数学表达 ”(To investigate things from the underlying principle/principles, and to acquire knowledge in the form of mathematical representations )。“之”字可以按“的”意理解。解释语中反映出任何事物发生与发展都有其规律与原理,它们揭示了事物的内在本源。另一方面,知识获取中强调知识深层理解主要取决于事物规律与原理的数学语言表达。其中我们将知识大体分为两个层面:浅层知识与深层知识。由此也对应了两种语言方式来表达,分别是自然语言与数学语言。牛顿定律就是一个“格数致知”的最好实例。表 1 示意了该实例中关于知识层次与语言表达的基本关联。应用数学表达是为了保证知识被人们以完整以及惟一的方式理解。


基于人工智能发展背景,我们将机器学习研究划分为 4 个基本问题,分别为“学什么?”“怎么学?”“评价什么?”以及 “调整什么 ?”。由此,4 个基本问题层级与反馈方式的连接构造了对复杂问题或复杂系统研究的一种分析框架。该框架结构可以实现“兼容并包”哲学思想的研究方式 : 既要有“分而治基于人工智能发展背景,我们将机器学习研究划分为 4 个基本问题,分别为“学什么?”“怎么学?”“评价什么?”以及 “调整什么 ?”。由此,4 个基本问题层级与反馈方式的连接构造了对复杂问题或复杂系统研究的一种分析框架。该框架结构可以实现“兼容并包”哲学思想的研究方式 : 既要有“分而治之”的“还原论”(Reductionism), 又要兼容“合而为一”的“整体论”(Holism)哲学思想。它也大体符合人的智能行为与决策方式。为说明“格数致知”的意义及其实施办法,我们给出了关于世界各国生活质量多指标客观综合评价的一个具体实例。针对客观综合评价实施,我们提出了“元准则”评判方法。有关实例源于外国学者 2010 年应用 171 个国家的 4 项指标数据为各国生活质量进行排序的研究工作。这 4 项指标分别是人均GDP、人均预期寿命、婴儿死亡率、肺结核率。他们在研究中首次选择主曲线方法的思路十分具有启迪性,只是在应用“弹性图”方法中未对评价函数施加必要的元准则约束。我们提出了一种新的非线性工具,可以更为有效地表达相关数据的非线性结构,这是传统线性工具无法实现的。由于没有人为调整参数(如权重),因此新方法更为合理地实现了客观综合评价。新方法中应用可视化表达则是强调大数据分析中“让数据说话”与“一目了然”(快速获取知识)的本意。该实例展现了人工智能的广泛应用前景,同时说明我们在“格数致知”中必须借助数学工具并不断完善它们。基于数据的客观性分析或评价是走向认知真理的必要条件。提出元准则方法论也是为了避免工具的误导或滥用。防止人类成为工具下的奴隶将是人工智能发展中的重要研究内容。这些内容具体介绍读者可以阅读本文的全文版本。
(详见https://arxiv.org/abs/1901.01834)


在科学发展与人工智能兴起的背景下,人类需要不断地继承先贤人文、科学与哲学思想并赋予新的学术内涵。为此我们初步尝试提出“格数致知”的说法。面对纷繁复杂真实世界的演化、神奇奥妙生物大脑的智能机理,人类可谓知之不多。“格数致知”说法将强化我们对知识发现的追求,强调利用数学工具扩展对各种世界的深度认知,由此来有效地应对人类面临的许多共同挑战。


人工智能为我们带来新的发展契机,中国能够而且应该在人类社会进步中走出一条新路:集成东西方智慧、兼容人文价值与科学知识、造福人类命运共同体。马世骏、钱学森先生等人分别提出的“社会 – 经济 – 自然复合生态系统” “开放的复杂巨系统”正是体现了中国科学家综合东西方思想发展的重大学术创新。这种以数学为工具的系统论思想预示了我们应该如何认知和治理复杂世界。人工智能为全球、国家以及地区发展或治理提供了全新的解决方法。采用机器学习 4 个基本问题分析框架也为探索各种世界带来数学层面见解。以社会发展应用背景为例,机器学习中 4个基本问题将对应为“发展什么?”“怎样发展?”“评价什么?”“调整什么?”。然后它们需要转化为数学层面描述的问题。比如社会发展本应是带约束多目标优化问题(实际约束可能包含未知函数表达而需求机器学习后获得认知),社会博弈中纳什均衡点可能并非是最优解(转化为最优解或次优解的条件会是什么),客观综合评价应视为社会治理中的首要内容之一(如何发展具有共识元准则下的客观评价体系),社会自我修复的反馈机制是否存在或有效(不同国家或地区的反馈机制有哪些并进行比较研究)。多元化学术思想争锋应该提倡,但是应用数学工具方能避免似是而非的论断并可跨越见仁见智的无效争议陷阱。


我们应用世界各国生活质量多指标客观综合评价具体实例,说明认知世界需要不断发展新的数学工具。应用中应该尽快采纳更为合理的工具,如数学家在 1986 年就指出算数平均法在实施单指标排序中的严重缺陷(不满足尺度不变性数学性质),并建议应用几何平均法。然而直到 2010 年国际组织方更正为应用几何平均法来计算其人类发展指数(HDI)。“工具改变人类”(Tools change humans) 的说法意味着人们的行为与社会发展可能与其应用的工具息息相关。其中正负方面的影响或因果关联同样需要“格数致知”方式的解释。我们需要不断完善工具(如机制设计)来实现人类发展目标。行为与社会发展可能与其应用的工具息息相关。其中正负方面的影响或因果关联同样需要“格数致知”方式的解释。我们需要不断完善工具(如机制设计)来实现人类发展目标。


我们将“格数致知”设为人工智能研究或科学研究以至人类发展的目标之一。这一提法及其解释仍需质疑、推敲以及完善,特别是考虑在应用中可能带来的问题。以下给出 3 个方面内容,目的是尽量减少偏差理解并能够认知相关问题。


相关问题一:“格数致知”是以“格物”而不是“格数”为出发点(纯数学研究也应按事物来理解)。“格数”在“格物”中可以理解为一种方法论。研究中要同时避免“格物”与“格数”的缺失或脱节。


相关问题二:“格数致知”在人工智能研究中多数是以数学模型来体现的。通常情况下,数学模型是趋向获取正确知识的必要条件而非充分条件。但是要理解模型假设与局限性,谨防过度数理化与迷信模型工具以及结论的负面发展趋向。


相关问题三:“格数致知”提法将数学表达设为获得深度知识的基础或必要条件。然而,哥德尔不完备定理表明这个基础本身就有根本性漏洞:完备而自洽的数学体系根本不存在。“阿罗不可能定理”(Arrow’s Impossibility Theorem)或“辛普森悖论”(Simpson's Paradox)等说明具体应用(如投票选举或医疗方案选择)中存在数学困境。


最后一个问题更本质上是“格数致知”提法中的基础性问题。上述问题说明应用中要有清醒认识并能够正确实践。“格数致知”并非意指对所有事物都是可以实现“致知”。“知”与“未知”的边界可能是模糊且动态的,因此该提法更是一种追求目标。如果我们将中国历史百家争鸣中的“百家”简单分为两大家,则可以有以孔子为代表的“教家”(Education School,代表作《论语》)和以屈原为代表的“问家” (Inquiry School,代表作《天问》)。他们分别对应了中国先贤人文教育与科学质疑的两种文化基因。在“格数致知”的道路中,屈原的理念也反映了我们的共同追求:“路漫漫其修远兮,吾将上下而求索”。


本文为缩写版本,全文版本(包括引用文献)可见:

https://arxiv.org/abs/1901.01834 。


致谢:感谢国家自然科学基金项目(项目编号:61573348,61832016)的支持。


胡包钢研究员是机器学习与模式识别领域的知名学者,1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。  

          

 董未名,中国科学院自动化研究所模式识别国家重点实验室研究员,中国科学院大学教授。


更多请阅读胡包钢研究员的系列文章:

自动化所胡包钢研究员最新从广义约束探讨—深度学习模型可解释性教程


基于信息理论的机器学习教程各部分链接如下

1. 基于信息理论的机器学习——中科院自动化所胡包钢老师教程分享01(附pdf下载)

2. 基于信息理论的机器学习——中科院自动化所胡包钢老师教程分享02(附pdf下载)

3. 基于信息理论的机器学习——中科院自动化所胡包钢老师教程分享03(附pdf下载)

4. 基于信息理论的机器学习——中科院自动化所胡包钢老师教程分享04



-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 ,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解使用专知
登录查看更多
2+

相关内容

论文摘要:迁移学习的目的是通过迁移包含在不同但相关的源域中的知识来提高目标学习者在目标域中的学习性能。这样可以减少对大量目标域数据的依赖,从而构建目标学习者。由于其广泛的应用前景,转移学习已经成为机器学习中一个热门和有前途的领域。虽然已经有一些关于迁移学习的有价值的和令人印象深刻的综述,但这些综述介绍的方法相对孤立,缺乏迁移学习的最新进展。随着迁移学习领域的迅速扩大,对相关研究进行全面的回顾既有必要也有挑战。本研究试图将已有的迁移学习研究进行梳理和梳理,并对迁移学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。与以往的研究不同,本文从数据和模型的角度对40多种具有代表性的迁移学习方法进行了综述。简要介绍了迁移学习的应用。为了展示不同迁移学习模型的性能,我们使用了20个有代表性的迁移学习模型进行实验。这些模型是在三个不同的数据集上执行的,即,亚马逊评论,路透社-21578,Office-31。实验结果表明,在实际应用中选择合适的迁移学习模型是非常重要的。

关键词:迁移学习 机器学习 域适应 可解释性

4+
0+

该白皮书聚焦于人工智能产业化发展历程和现状,整合清华大学全球产业4.5研究院的学术观察和百度大学Alpha学院的业界实践,从产业演进的视角具体探讨不同人工智能技术的产业化发展历程,深入分析产业化发展状况,发现人工智能产业化的动态结构和竞争焦点,以期为从业者、投资者和研究者提供有意义的启发。

2+
0+

最近一期的计算机顶级期刊ACM Computing Surveys (CSUR)出版,涵盖最新的GANs综述论文,146篇参考文献, 本文的作者来自首尔大学数据科学与人工智能实验室的师生,研究方向为深度学习和机器学习。本综述论文介绍了GAN的原理和应用。

生成对抗网络(GAN)在机器学习领域受到广泛关注,因为它们有可能学习高维,复杂的实际数据分布。具体而言,它们不依赖于关于分布的任何假设,并且可以以简单的方式从潜在空间生成真实样本。这种强大的属性使GAN可以应用于各种应用,如图像合成,图像属性编辑,图像翻译,领域适应和其他学术领域。在本文中,作者从各个角度探讨GAN的细节。此外,作者还解释了GAN如何运作以及最近提出的各种目标函数的基本含义。然后,作者将重点放在如何将GAN与自动编码器框架相结合。最后,作者列举了适用于各种任务和其他领域的GAN变体,适用于那些有兴趣利用GAN进行研究的人。

How Generative Adversarial Networks and Their Variants Work An Overview.pdf
12+
0+

动态视频摘要,通过从视频中提取出的单模态或多模态特征,可以通过动态链接的方式,对视频进行摘要生成工作,从而可以帮助人们通过摘要来理解视频。受到最近视频网站发展的影响,使得动态视频摘要技术得到了越来越多研究人员的关注。在本文中,我们对此类技术进行了综述,并提出了一种分类体系,讨论体系中各里程碑节点的发展过程。

5+
0+
小贴士
Top