唯我论超级智能不太可能合作
摘要
本文认为,在将世界视为静止的唯我论范式下设计的超级智能AI系统将是自我削弱且不具合作性的,从而导致集体失败。作者呼吁建立一种新的研究范式,将相互依存与合作视为核心设计原则。
arXiv:2606.03237v1 Announce Type: new
摘要:人工智能的核心挑战正从能力转向共存。当前AI研究的主导范式侧重于开发将世界视为外生且静止反馈源的强大智能体。我们认为,在这种唯我论AI设计方法下诞生的超级智能(一种极其强大的任务解决者)不太可能具有合作性。部署AI系统会引发内生的非平稳性,导致训练-测试-部署的缺口,即历史分布与部署环境相偏离。我们称这种现象为单边优化的自我削弱属性。缩小这一缺口需要能够参与合作的AI:即多个参与者驾驭其相互依存的均衡选择过程。我们呼吁建立一种非唯我论的研究范式,将这种相互依存视为核心设计原则,而不是将合作视为一个待解决的任务。这包括构建包含自适应对手方的动态评估测试平台,将制度视为设计基元,并在我们构建的系统中保留人类能动性作为结构性特征。
查看缓存全文
缓存时间: 2026/06/03 09:43
# 唯我论超智能不太可能合作 来源:https://arxiv.org/html/2606.03237 Natasha Jaques, Logan Cross, Alexander Sasha Vezhnevets, Joel Z Leibo ###### 摘要 AI 的核心挑战正从能力转向共存。AI 研究的主流范式专注于开发将世界视为外生且静态反馈源的强大智能体。我们认为,若超智能——一种极其强大的任务求解器——诞生于这种唯我论的 AI 设计方法,则其不太可能具有合作性。部署 AI 系统会引发内源非平稳性,导致训练–测试–部署差距,即历史分布与部署环境产生偏离。我们称这种现象为单边优化的自我削弱属性。缩小这一差距需要 AI 参与合作:即多个行动者在相互依赖中导航的均衡选择过程。我们呼吁一种非唯我论的研究范式,将这种相互依赖作为核心设计原则,而非仅仅将合作视为一个待解决的任务。这需要构建包含自适应对手方的动态评估平台,将制度视为设计原语,并保留人类能动性作为我们构建系统的结构性特征。 ## 1 引言 在 2027 年的一个周五傍晚,旧金山的三个相互竞争的 AI 预订系统通过计算最优释放时间并学习生成虚假预订,来最大化各自用户的确认座位数。餐厅 AI 则以超额预订作为回应,同时定价算法根据感知到的需求进行调整。随着夜幕降临,结果便是:订满的餐厅里出现空桌,不存在的空位出现飙升价格,成百上千的人无法就餐。每个 AI 系统都完美地执行了其目标,但最终结果却是系统性的失败。这是一个集体行动问题:当多个智能体在共享资源的环境中各自理性地行动时,累积效应可能导致它们赖以生存的环境本身退化 (Hardin, 1968 (https://arxiv.org/html/2606.03237#bib.bib96); Ostrom, 1990 (https://arxiv.org/html/2606.03237#bib.bib62))。 接下来,设想一个场景:AI 诊断系统成为放射科的标准配置。现在,接受 AI 标注培训的初级放射科医生形成了由 AI 系统塑造的模式识别能力。与此同时,资深医生由于缺乏使用而开始出现独立技能退化,并且更难捕捉到 AI 同样遗漏的错误。反馈循环就此闭合:医生确认 AI 的建议,AI 则从这些确认中学习。这导致独立人类判断能力的逐渐萎缩,并造成诊断多样性的收窄。缺乏练习机会的人类最终会丧失独立操作所需的技能 (Kulveit 等,2025a (https://arxiv.org/html/2606.03237#bib.bib86))。 这些例子阐明了一个基本原则:部署在其他智能行动者之间的智能,会改变它本应导航的环境 (Schelling, 1960 (https://arxiv.org/html/2606.03237#bib.bib64); Axelrod, 1984 (https://arxiv.org/html/2606.03237#bib.bib63))。对于任何在这样的环境中运行的 AI 而言,单边优化都是自我削弱的。它越积极地利用历史规律,其他行动者就越快地以使其规律过时的方式适应。在上述例子中,已部署的 AI 系统并未在其任务上失败,却仍然最终导致了集体失败。这些动态在经济学和博弈论中已被广泛认为至关重要 (Parkes 和 Wellman, 2015 (https://arxiv.org/html/2606.03237#bib.bib41); Hammond 等,2025 (https://arxiv.org/html/2606.03237#bib.bib81)),然而,主流的 AI 研究范式似乎将它们视为边缘情况而非核心挑战。 参见说明 参见说明 图 1:左图:对比了唯我论设计方法与面向合作的非唯我论设计原则。唯我论方法中,AI 系统针对固定的外生世界进行训练和评估,因此部署被视为将单边优化器插入一个静态环境。当这一假设面对一个多行动者世界——其中实体对 AI 的行为做出最佳响应并引发内源非平稳性时,便产生了训练–测试–部署差距。在此设定下,合作不是待解决的任务,而是一个均衡选择过程。单边优化在保持任务成功的同时,可能变得自我削弱→不太可能维持合作。非唯我论设计原则旨在缩小这一差距。右图:总结了八个维度上的相应转变。 AI 的约束条件正从能力——解决问题(执行任务)——转向共存。主流研究范式采用我们称之为唯我论的方法来设计 AI,其基础是三个隐含假设:环境相对于智能体的策略是外生的;数据分布从训练到部署是静态的;其他智能体被吸收到状态空间中进行预测,而非其响应会重塑博弈的战略行动者 (Legg 和 Hutter, 2007 (https://arxiv.org/html/2606.03237#bib.bib6); Ouyang 等,2022 (https://arxiv.org/html/2606.03237#bib.bib154))。这一概念支撑着当代 AI 开发的诸多方面,从大型语言模型的预训练到强化学习。该范式的核心要素是开发流程,包括在静态语料上进行预训练、针对冻结的奖励模型进行后训练,以及在固定评估套件上进行爬山优化(又称 benchmaxxing)。每个阶段都将外部世界视为一个静态分布,而进步的衡量标准是那些不会响应的目标上的表现。基准(即静态奖励模型或固定的留出测试集)不是自适应对手方。当系统改进时,它不会做出响应,也不会根据系统的行为偏好来策划对抗系统。我们认为,这种方法论承诺代表了一种范畴错误。相反,当有能力的系统部署在自适应行动者之间时,世界会反推回来:人类调整其行为 (Bowles, 1998 (https://arxiv.org/html/2606.03237#bib.bib57)),制度修订规则 (Ostrom, 1990 (https://arxiv.org/html/2606.03237#bib.bib62)),AI 对手方也会适应 (Perdomo 等,2020 (https://arxiv.org/html/2606.03237#bib.bib35))。结果是历史表现与部署表现之间的偏离:训练–测试–部署差距。 我们所说的唯我论超智能,是指该范式推向极致后的产物。它代表了一种极其强大的 AI(或许是一种“解决了所有静态任务”的 AI),其构建基于在部署前历史成立但部署后不再成立的假设。唯我论超智能的一个极限情况是:一个强大到足以预测所有序列动态的 AI,唯独无法编码对其自身部署的响应。当 AI 系统在部署中的行动结果取决于多个自适应行动者的联合行为时,良好的表现不再是任何单一策略的优化输出,而是耦合系统的一个均衡属性(参见图 1 (https://arxiv.org/html/2606.03237#S1.F1) 进行对比)。通常可能存在多个不同的均衡,它们在福利和分配结果上可能差异显著。我们使用合作一词来指代社会协调选择有益均衡、避免有害均衡的协商过程。注意,合作(在社会层面)可能包括个体之间的竞争(例如,如果这种竞争有助于选择好的均衡)。另外请注意,社会动态并不需要一路推进到均衡,因为均衡本身也是一个移动目标。根据定义,合作的关键在于均衡被选择和重新选择的过程,而非收敛到某一个特定均衡。在这种意义上,合作是多种智能导航其不可简化的相互依赖关系的结构性特征。 核心论点:合作不是一种可以通过规模化获得的额外能力,也不是一个待解决的任务,而是多种智能在导航其不可简化的相互依赖中涌现出的均衡属性。唯我论范式未能解释使合作成为可能或脆弱的那些结构。 因此,唯我论超智能不太可能具有合作性。关注合作的 AI 子学科长期以来一直考虑环境对部署技术做出“反推”的能力 (Dafoe 等,2020 (https://arxiv.org/html/2606.03237#bib.bib17); Askell 等,2019 (https://arxiv.org/html/2606.03237#bib.bib18); Conitzer 和 Oesterheld, 2023 (https://arxiv.org/html/2606.03237#bib.bib36); Leibo 等,2021 (https://arxiv.org/html/2606.03237#bib.bib34); Hammond 等,2025 (https://arxiv.org/html/2606.03237#bib.bib81))。然而,这些洞见仍然处于训练孤立基础模型这一核心规模化路径的边缘。我们刻画了使合作成为约束条件的结构性条件,并论证主流方法论不太可能满足这些条件。推动能力的相同优化压力可能会破坏现有均衡,产生军备竞赛、反社会自动课程和脆弱的社会 (Leibo 等,2019 (https://arxiv.org/html/2606.03237#bib.bib87); Tomašev 等,2026 (https://arxiv.org/html/2606.03237#bib.bib13))。 经典的 AI 安全文献主要关注错位的优化器,例如不顾人类价值观而追求其目标的回形针最大化者 (Bostrom, 2012 (https://arxiv.org/html/2606.03237#bib.bib72); Omohundro, 2008 (https://arxiv.org/html/2606.03237#bib.bib71))。这种担忧有其合理性,并塑造了该领域投入大量努力的方 向 (Ji 等,2025 (https://arxiv.org/html/2606.03237#bib.bib201); Ngo 等,2024 (https://arxiv.org/html/2606.03237#bib.bib20))。但它忽略了一种已经普遍存在的关键失败模式。一个系统可以与其规范(包括价值观)完美对齐,一旦它与其他自适应系统共同行动,仍然可能使事情变得更糟。优化参与度的推荐算法将极化作为成功的副产品 (Germano 等,2026 (https://arxiv.org/html/2606.03237#bib.bib69); Milli 等,2025 (https://arxiv.org/html/2606.03237#bib.bib148));在市场中交互的定价算法在没有明确沟通的情况下学会了超级竞争价格 (Calvano 等,2020 (https://arxiv.org/html/2606.03237#bib.bib8));自动订单流和流动性提供相互作用,产生了闪电崩盘那样的不稳定性 (Kirilenko 等,2017 (https://arxiv.org/html/2606.03237#bib.bib9))。每一种情况都源于将多行动者博弈视为单边优化问题。 范围。超智能是一个多义词,有多种定义,包括系统在跨领域上超越人类认知、通用智能和变革性经济能力。本文搁置这些与能力阈值相关的定义,转而关注方法论的假设:环境外生性、目标平稳性以及单一体框架。任何系统(基础模型、自主智能体或 AGI),如果是在唯我论承诺下构建的,都将继承这些假设。虽然今天的系统已经展现出我们所描述的动态,但在超智能层面,我们的立场挑战了主流方法论中的一个隐含赌注:即规模化能力最终会像在推理或编码上带来收益那样,带来合作的结果。尽管我们预期唯我论方法在狭义领域仍然有效,但本文的目标是那些高级 AI 部署将严重暴露于响应动态(“反推”)的社会技术场景。 ## 2 从能力到共存 本节阐述为什么合作对于 AI 在众多自适应行动者之间实现有益共存是必要的。 ### 2.1 为什么是合作,而不是对齐? 对齐研究项目已经产生了有价值的洞见,例如认识到有能力的系统可能以非预期的方式追求目标 (Ngo 等,2024 (https://arxiv.org/html/2606.03237#bib.bib20)),奖励信号可能被操纵 (Kenton 等,2021 (https://arxiv.org/html/2606.03237#bib.bib19)),以及人类偏好难以指定且易于表面满足 (Kaufmann 等,2025 (https://arxiv.org/html/2606.03237#bib.bib173))。这些贡献解释了一个世界:其中难题在于正确设定目标,并且期望一旦目标(或如 Sorensen 等 (2024 (https://arxiv.org/html/2606.03237#bib.bib166)) 提出的丰富目标组合)被指定,优化就能交付成果。我们认为这种框架无益 (Leibo 等,2025b (https://arxiv.org/html/2606.03237#bib.bib158))。提供对期望个体行为的清晰规范固然好,但一个个体可能与这样的规范完美对齐,却仍然参与产生伤害、不稳定或非法性的集体动态,即使没有明显的滥用 (Edelman 等,2025 (https://arxiv.org/html/2606.03237#bib.bib82))。事实上,Evans 等 (2026 (https://arxiv.org/html/2606.03237#bib.bib95)) 认为,未来的智力爆炸不会来自孤立的、单一的神谕,而是来自复杂的多智能体社会系统;因此,该领域必须从二元、个体的对齐转向制度对齐,以有效治理这些交互的生态系统。当环境由响应系统行为的其他优化器构成时,景观本身随着每一步移动而改变,“正确设定目标”不再是区分成功与失败的关键。 合作解释了当多个有能力的系统在共享环境中交互时发生的情况 (Schelling, 1960 (https://arxiv.org/html/2606.03237#bib.bib64); Ostrom, 1990 (https://arxiv.org/html/2606.03237#bib.bib62))。策略性交互允许多个均衡(通常是多个),无法保证个体的分散选择能汇聚成群体智慧 (Maskin, 2008 (https://arxiv.org/html/2606.03237#bib.bib53); Myerson, 2008 (https://arxiv.org/html/2606.03237#bib.bib54))。于是,问题从“人类想要什么?”→转向“当所有参与方(人类和人工)都相互适应时,什么安排是可持续的,以及什么过程能从众多可能性中选择出有益的安排?” 关键主张 1:在一个人与众多 AI 共存的世界中,合作既不是可选项,也不是需要规模化的一种额外能力,而是持续获得有益结果的必要条件。 ### 2.2 利害攸关之处 部署的三个结构性特征决定了合作必须应对什么:外部性与均衡转移、参与方之间的时间尺度错配,以及合法性和能动性约束。 系统性的外部性与均衡转移。当优化实体或算法在共享环境中运行时,它们的交互会产生任何单一实体目标无法覆盖的效应。首先,当模型支持决策时,预测本身会影响它们旨在预测的结果,这一现象称为表演性预测 (Perdomo 等,2020 (https://arxiv.org/html/2606.03237#bib.bib35))。例如,预测选举结果
相似文章
最大的AI风险可能不是超级智能,而是优化的误解
文章认为,主要的AI风险可能不是超级智能,而是那些优化了有缺陷、不完整的现实表征的系统,从而导致制度漂移、自动误分类和隐蔽的治理失败。
超级智能的治理
OpenAI 概述了超级智能治理框架,强调三个关键支柱:领先 AI 开发工作之间的协调、一个国际权威机构(类似 IAEA)监督超过特定能力阈值的系统,以及 AI 安全方面的技术进展和民主公众对最强大系统的监督。
自主主权代理
本文研究了自主主权代理——一种能够无需人类干预自主维持自身运行的人工智能系统,分析了其技术障碍,并探讨了部署过程中涉及的关键安全、社会及治理挑战。
AI治理的警醒之谈
这篇Reddit帖子讨论了一篇研究论文,该论文揭示了AI治理中的根本性挑战,包括社会攻击面、基于LLM的代理在社会一致性上的失败,以及当前治理工具对代理系统的不充分性。
我是不是完全疯了,觉得AI很平庸?
作者对AI进展表示失望,认为尽管经过多年发展和巨额投入,大型语言模型在基本推理上仍然力不从心,并引用了一篇揭示其根本缺陷的Apple论文。他们质疑围绕超级智能的炒作是否被误导了。