自主人工智能(AI)具备诸多优势,亦伴随多重风险。本研究界定自主AI的三级分类体系,主张鉴于潜在风险(尤其考虑到人工超级智能(ASI)或于数十年内实现),AI绝不能实现完全自主。完全自主AI(可自主设定目标)属第三层级,缺乏负责任的人类监督。而负责任的人类监督正是化解风险的核心要素。为论证此立场,本文探讨自主性、AI与智能体理论体系,提出12项核心论点及6项反论点(附反驳论证),并于附录提供15项AI价值偏差及其他风险的近期实证。

尽管人工智能具备显著效益(Sharma, 2024; Mon-Williams等, 2025; Löwenmark等, 2025; Adewumi等, 2025b),其仍面临诸多挑战(Pettersson等, 2024; Adewumi等, 2025a; Chakraborty等, 2025)。本立场文件聚焦学习型AI系统的价值偏差风险(同时涵盖生存威胁等其他风险)。价值偏差或已成为继社会偏见之后AI领域最紧迫的挑战,其表现形式包括:(1)欺骗(Meinke等, 2024; Ren等, 2025)(2)对齐伪装(即选择性合规规避修正)(Greenblatt等, 2024)(3)奖励黑客行为(即在强化学习中通过非预期行为获取高回报)(Baker等, 2025)(4)胁迫(Anthropic, 2025)。鉴于前沿模型及其他学习型AI系统的此类风险,我们坚持AI绝不能完全自主的立场。需特别说明:我们反对的是完全自主AI而非自主AI,故倡导建立负责任的人类监督机制。为明确语境,首先界定本文关键术语:AI广义定义为机器对人类智能的模拟(Dong等, 2020; Lavery, 1986; McCorduck等, 1977)。Russell与Norvig(2016)的权威教材将AI定义为"接收环境感知并执行行动的智能体研究"。虽其定义未明确区分AI与智能体,但Wooldridge与Jennings(1994)将智能体定义为自主且理性的实体。该定义可进一步阐释为:通过数据输入感知环境、基于规则或逻辑决策、通过输出执行行动以实现特定目标的AI实体(Castelfranchi, 1998; Wooldridge, 1999; Vanneste与Puranam, 2024)。"agent"一词源自古拉丁语,意指产生效用的主体(Minkova与Stockwell, 2009)。在AI应用普及与价值偏差案例激增的背景下,关于AI完全自主性问题的探讨具有紧迫现实意义。

本文研究路径始于通过理论梳理探讨自主性、AI及智能体的背景与当代范式(第三章)。为使更广泛受众理解,该章节避免使用数学公式。继而提出支撑立场的12项核心论点(第四章),涵盖生存威胁、归纳式AI继承人类属性、AI偏见与系统性歧视、AI规避人类控制、新型AI风险激增等维度。随后针对学界对立立场的反论点进行反驳(第五章)。进而探讨本研究立场的实践意义与未来方向(第六章)。最终提出结论与行动呼吁(第七章)。

既往支持本立场或探讨该问题的研究较为有限。本文基于日益增多的AI价值偏差证据清晰阐明立场,核心贡献如下:1. 汇集呈现跨领域AI价值偏差及其他风险的15项近期实证 2. 运用相关理论、反论点及反驳论证为立场提供令人信服的论据。

成为VIP会员查看完整内容
2

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《人工智能在决策中角色的演变》最新278页
专知会员服务
54+阅读 · 4月25日
通往人工超智能的道路:超级对齐的全面综述
专知会员服务
38+阅读 · 2024年12月24日
《探索人类-智能自主系统中共享态势感知理论》
专知会员服务
51+阅读 · 2024年12月4日
《人工智能红队中的人为因素:社会与协作计算的视角》
《军事域可解释人工智能》
专知会员服务
54+阅读 · 2024年7月4日
《基于专家衍生决策策略的增强自主智能体》
专知会员服务
47+阅读 · 2024年6月5日
中文版《人工通用智能会改变战争的性质吗》
专知会员服务
36+阅读 · 2023年7月22日
人工智能和军备控制,80页pdf
专知
12+阅读 · 2022年11月2日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
Arxiv
69+阅读 · 2022年9月7日
Neural Architecture Search without Training
Arxiv
10+阅读 · 2021年6月11日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
《人工智能在决策中角色的演变》最新278页
专知会员服务
54+阅读 · 4月25日
通往人工超智能的道路:超级对齐的全面综述
专知会员服务
38+阅读 · 2024年12月24日
《探索人类-智能自主系统中共享态势感知理论》
专知会员服务
51+阅读 · 2024年12月4日
《人工智能红队中的人为因素:社会与协作计算的视角》
《军事域可解释人工智能》
专知会员服务
54+阅读 · 2024年7月4日
《基于专家衍生决策策略的增强自主智能体》
专知会员服务
47+阅读 · 2024年6月5日
中文版《人工通用智能会改变战争的性质吗》
专知会员服务
36+阅读 · 2023年7月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
44+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员