定义对齐先于能力对齐:一个用于裁决关于AGI声称的设计科学框架
摘要
本文提出了DAF-AGI,一个基于设计科学研究方法论的概念框架,用于裁决关于人工通用智能的声称。它将AGI定义的有争议性视为一个设计和治理问题,提供了序数标准和治理审计来评估候选定义。
arXiv:2606.12713v1 Announce Type: new
摘要:声称人工通用智能已经到来和声称它仍需数十年的说法往往基于重叠的证据进行辩护。"AGI"缺乏单一共享且稳定的指代对象,不同的操作化方法可能对同一系统得出不同结论。本文将这种未充分说明视为一个设计和治理问题。遵循设计科学研究方法论,它开发了DAF-AGI,一个二阶概念人工制品,包含两个耦合组件:五个用于评估候选定义裁决适用性的序数标准,以及一个结构化的治理审计,涵盖作者身份、利益、认证、外部验证和修订权限。该人工制品在五个著名的测量家族和一个通缩边界立场上进行了演示,使用已存档语料库,然后对一种风格化的强大到来声称进行了压力测试:即当前的生成系统构成了AGI,因为它们在许多认知任务上优于受过良好教育的成年人。根据引用的2024-2025年来源证据,该声称仅在基于性能的操作化下才可认证;能力-本体论、心理测量和技能获取方法未认证它,经济家族仍不确定,通缩立场拒绝二元裁决。贡献在于新颖的整合和操作化,而非实证验证:独立应用、评估者间测试和作者外部案例仍然必要。本文进一步提出定义主权作为算法主权的促成组件:在公共问责下对进口技术类别进行质疑、认证和修订的制度能力。
查看缓存全文
缓存时间: 2026/06/12 08:53
# 能力对齐之前的定义对齐:用于裁决通用人工智能主张的设计科学框架(DAF-AGI) 来源:https://arxiv.org/html/2606.12713 J. E. Aguilera Briones 博士后研究员,行政与商业创新 墨西哥国际研究大学 ORCID:0009-0001-1121-1458 (https://orcid.org/0009-0001-1121-1458) (预印本 — 版本 1.7,采用 CC BY 4.0 许可) ###### 摘要 关于人工通用智能已经到来以及仍然需要数十年的主张,往往基于重叠的证据进行辩护。分歧并不完全源于系统本身的事实:“AGI”缺乏一个单一且稳定的所指对象,不同的操作化方式可能对同一系统给出不同判定。本文将这种规定不足视为设计与治理问题。遵循设计科学研究方法,本文开发了 DAF-AGI 这一二阶概念制品,包含两个耦合组件:用于评估候选定义裁决适配性的五个序数标准,以及对作者身份、利益、认证、外部验证与修订权限的结构化治理审计。该制品在一个有文献记载的语料库中,针对五个显著的测量家族和一个通缩边界立场进行了演示,然后对一个程式化的强到来主张进行了压力测试:当前生成式系统构成 AGI,因为它们在许多认知任务上表现优于受过良好教育的成年人。基于引用的 2024-2025 年来源证据进行的演示表明,该主张仅在基于表现的操作化下才可被认证;能力本体论、心理测量学和技能获取方法均未能认证它;经济家族在缺乏劳动替代证据的情况下仍不确定;通缩立场则拒绝二元判定。本文的贡献在于提供了一种新颖的整合与操作化,而非实证验证:语料选择、评分和演示均由作者进行,独立应用、评分者间检验以及作者之外的案例仍有待验证。本文进一步提出*定义主权*作为算法主权的赋能组件:在公共问责下,对输入的技术类别进行质疑、认证和修订的制度能力。 关键词:人工通用智能;概念工程;设计科学研究;技术治理;算法主权;基准政治;定义主权。 ## 1 AGI 没有共同所指,空白地带正在发挥效力 一个根据不同操作化方式对同一系统返回“是”和“否”的定义,不仅是不成熟的,更是有争议的。人工通用智能领域花费了二十年时间,将其核心术语当作仿佛额外的能力证据最终会确定其含义。然而,长期以来文献中已包含数十种相关但不等价的智力和 AGI 定义 [22]。标准解读是这门科学还很年轻。本文坚持的解读更为狭隘:该术语位于不相容承诺的断层线上,缺乏共同的裁决规则为行为者创造了空间,使其能够推动与不同科学、商业和监管目的相一致的门槛。不相容的证据已不再是铁事。最近三次最受关注的厘清该术语的尝试,在其测量对象上存在分歧。Google DeepMind 的“AGI 层级”将表现深度与通用性广度分离,将前沿语言模型定位在“新兴 AGI”的第一级,而将符合该术语大多数先前概念的标签保留给没有公开系统达到的“胜任 AGI”阶段 [1]。一项有 33 位作者的心理测量学提案将 AGI 建立在 Cattell-Horn-Carroll 理论上,将其定义为匹配受过良好教育的成年人的认知多样性,并在应用其自身测试后发现了一个“锯齿状”特征:在知识密集处强大,但在基础机制(如长期记忆存储)上严重不足 [2]。François Chollet 的方案完全拒绝以表现作为测量单位,将智力定义为在新任务上获取技能的效率,通过 ARC-AGI 基准进行操作化,其中 2025 年最佳竞赛条目在人类轻松解决的私人问题集上达到 24% [3][4][5]。这不是对同一数量的三个估计,而是三个不同数量。 这种不稳定性并不新鲜,其历史具有启发性,因为该领域不断以新名称重打同一场战争。图灵用操作化替代物——模仿游戏——取代了机器能否思考这一无法回答的问题,正是因为底层概念抵制定义 [20]。二十年前对术语用法的调查已收集了超过七十种在技术文献中流传的不同智力定义,并且仅进行了松散分组 [22]。当研究团队在 2023 年声称在早期前沿模型中观察到人工通用智能的“火花”时,随后的争论并非关于该模型做了什么(这一点大致达成共识),而是关于它所做的是否算是通用智能(这一点没有共识)[21]。每次事件都遵循相同模式:能力取得进展,进展是真实的,但社区发现自己没有共同规则将进展转化为关于通用性的裁决。规则从未被构建。该术语作为营销和筹款标语进入广泛流通的速度快于其被赋予可测试内容的速度,而内容已由具有不相容利益的相关方以不相容的方式回溯性地提供。 这种分歧具有金融层面。OpenAI 的首席执行官公开质疑该术语的有用性,而该公司同时继续以构建该术语所指对象的承诺筹集资金。DeepMind、OpenAI 和 Anthropic 各自传播着针对自身路线图和风险叙事校准的工作定义。与此同时,专家调查将高级机器智能(定义为无需帮助的机器在所有任务上比人类工人更好更便宜地完成)的中位到达时间定为 2047 年,到 2027 年概率为 10%,劳动完全自动化直到 2116 年才达到概率均等 [6]。当构建系统的组织不趋同,且它们的定义带有不同商业和监管含义时,这种不确定性不能被视为单一潜在数量周围的噪声。它是需要分析的对象的一部分。 这一诊断有其名称和谱系,命名它可防止被指责为发明了思想史已经描述过的问题。Gallie 关于本质上有争议的概念的论述,识别出一类源自政治、艺术和道德的术语,其正确应用必然且无休止地分裂胜任的使用者,不是因为使用者困惑,而是因为概念将描述与评价融合在一起,任何证据量都无法解决 [23]。“智力”以及随之而来的“通用智力”,展现了 Gallie 与此类概念相关的若干特性:它是评价性的、内部复杂的、在新案例下开放修订,并由相互承认该术语存在争议并利用此争议为己所用的对立各方应用。至于它是否满足 Gallie 的全部条件,特别是争议各方共同承认一个共享典范,本文不予裁决,论证也不依赖于此;论证所用的是部分契合所授权的预测:分歧不会仅凭额外能力证据就消失。将 AGI 视为具有这些特性,并非对精确性绝望,而是预测不能假定分歧仅靠能力证据就能消除,将其根源定位于该术语的评价核心而非领域的不成熟,并将努力从寻找唯一真实、独立于利益的定义(即使有一天达成约定,也不足以用于治理)转向对当前多元化定义的治理。 对智力测量的价值负载批判从实践层面得出相同结论,基准被证明编码了关于哪些能力算数的可争议判断 [7]。这两个文献支持了本文操作化的更可辩护主张:持久的分歧不可还原为缺失能力证据,因为候选定义编码了不同的成就单位和评价性承诺。这产生了一种特定且未充分审视的权力。谁固定了 AGI 的操作定义,谁就固定了“我们已经到来”能被说出的时刻,而这一时刻并非表面功夫。它影响估值、触发或推迟监管、重新安排公共研究优先级,并改写国家和企业决定是否构建、购买或依赖的条款。设定该标准的能力很少被命名为可治理对象,而被视为将由进展解决的事情。不能假定如此,因为能力进展本身并不能在关于什么最初算作智力的不相容价值承诺之间进行裁决 [7]。 本文的贡献在于使这一空白地带变得可操作。它并非提出另一个定义并论证其真理性,而是构建一个工具:以候选定义为输入,揭示与公共裁决相关的承诺,并浮出一个技术比较往往隐而不显的问题:谁被授权采用、认证和修订操作标准,谁承担该选择的结果。该工具名为 DAF-AGI(定义对齐框架——通用人工智能),其核心输出——五个测量家族和一个边界立场对照五个评分标准及治理审计的比较矩阵——在表 1 (https://arxiv.org/html/2606.12713#S5.T1)(第 5.7 节)中呈现。它的前提是对该领域词汇的有意颠覆。文献中“对齐”指的是使有能力机器符合人类价值观的问题。对于主张和治理后果存在一个先于能力对齐的定义问题,因为其操作条件正是 AGI 本身:到来判决、监管触发器和合同权利在它们所调用的类别被固定之前无法裁决,而当前由谁固定该类别是非正式的。该优先性的范围在第 9 节中精确说明;它不扩展到关于系统行为和风险的对齐研究,这些研究无需该标签即可进行。社区正在讨论如何治理 AGI 的到来,却尚未对齐 AGI 是什么。 ## 2 裁决制品必须完成的任务 在此,一个有用的工具不是结束分歧,而是使分歧变得可读、可比、可归因。由此产生三个要求。 第一个是*程序对称性与明确性*。该制品不能在实质上中立:其标准体现了关于公共裁决需要什么的特定观点。然而,它可以一致地将这些标准应用于异质定义,公开程序中嵌入的价值观,并允许用户质疑或修改它们。基于表现、经济、心理测量学、技能获取和通缩立场因此必须通过相同的记录程序输入,即使它们无需获得相同分数。 第二个是暴露承诺。大多数 AGI 定义被表述为描述,而实际上它们是带有隐藏参数的约定。“在认知任务上优于普通人”至少隐藏了三个参数:哪些人、哪些任务、在何种获取和努力条件下。一个定义的裁决很大程度上由这些隐藏参数决定,因此工具必须将它们拖出来并评分。目的并非宣布一个定义错误,而是展示它必须假设什么才能正确。 第三个要求是文献系统性地忽略的。该工具必须将定义背后的*权威*视为一个变量,而非脚注。由从特定裁决中获利的实体提出的标准不因此就是假的,但其独立性受到了损害,这关系到其作为公共标准的适配性,正如由受其监管的企业撰写的安全标准无论技术内容如何都值得怀疑。将作者身份、物质利益、认证和可修订性纳入评估,正是将制品的分析层与其治理层融合在一起。没有这种审计,该框架就只是一张比较表。有了它,治理就成为输出中显式且可争议的一部分,而非背景评论。 这些要求以设计科学术语定义了制品的成功条件。这些要求也解释了为何文献中已有的比较表并不足够。近期的几项提案调查了竞争性定义并将它们并排排列,较好的提案细致且有信息量。但调查描述分歧,并不为政体提供治理分歧的程序。在所选语料库中考察的比较提案中,治理状态并未作为与技术内容并列的结构化输出得到处理。DAF-AGI 因此既不因声称全覆盖而独特,也不因发现定义不同而独特,而是通过整合一个共同的裁决档案与对谁撰写、认证以及可能修订门槛的审计而与众不同。预期用户是必须决定候选标准是否适合作为公共标准运作的定义接受者。 ### 2.1 贡献边界与相邻概念 本文未声称发现的内容必须与其贡献同样精确地说明,因为其若干前提是相邻领域的既定成果。AGI 有争议、智力定义编码价值观、分类法具有政治后果、基准并非中立——这些并非本文的发现。价值负载批判为这一领域建立了这些观点并提出了语境化和参与式回应 [7];量化社会学建立了测量机制如何掩埋判断并重塑所测量对象 [24][25][26];分类系统研究则确立了类别是权力基础设施,其维护是政治工作 [33]。本文声称的贡献更为狭隘且具体:将这一共同诊断转化为面向公共裁决的二阶设计制品,包含决策规则、记录语料库以及对作者身份、物质利益、认证、外部验证和可修订性的结构化制度审计,可供定义接受者使用,而不仅仅供领域内部人士阅读。 定义主权的构建也需要同样的限定,因为审稿人可能会将其读作已有组合的新标签。它的相邻概念是真实的,该构建借用了若干概念。分类政治 [33] 和通约化文献 [24][25] 提供了类别行使权力的机制;共同生产理论描述了认知秩序和社会秩序如何共同被构建 [34];标准制定文献记录了私人机构如何以公共力量撰写规则,以及它们的委员会如何运作。
相似文章
@charliejhills:研究人员刚刚发布了一篇重新定义AGI实际含义的论文。它并非大多数人想的那样。论文开篇…
一篇新论文将AGI重新定义为在限制条件(计算、内存、能源)下的适应能力,并提出了一个“人工科学家基准”,专注于自主发现因果关系,而不是在固定任务上达到人类水平的表现。
为 AGI 及其未来做好准备
OpenAI 阐述了为 AGI 做准备的战略,强调通过真实世界反馈循环进行渐进式部署,随着系统接近 AGI 能力而提高谨慎程度,以及开发更好的对齐技术以确保 AI 系统保持可控和安全。
# 数字学徒:人类主导的智能体AI开发框架
本文介绍了"数字学徒"(Digital Apprentice)框架——一个可扩展且安全的智能体 AI 体系,其中自主权通过观察学习、人工授权和持续对齐校正的方式逐步获得。本文还介绍了 ADAPT,一种推理时控制平面,用于将渐进式自主权等级付诸实践,并将人工校正转化为可复用的偏好数据。
AgentDoG 1.5: 轻量且可扩展的AI智能体安全与防护对齐框架
本文提出AgentDoG 1.5,一个面向AI智能体安全的轻量可扩展对齐框架,利用基于分类树引导的训练,仅需极少量样本即可达到与领先闭源模型相当的性能。
@omarsar0: 关于自主AI作为通往AGI的可预见路径的有趣观点论文。(收藏)一直存在激烈争论……
这篇观点论文认为,包含记忆、推理、工具使用、自我改进和对齐的自主AI系统,是比单纯扩展单一模型更可预见的AGI路径,并将这些组件形式化为具有不同瓶颈的可分离轴。