@steverab:非常激动地分享,我们的论文《迈向AI智能体可靠性科学》已被ICML 2026接收!首尔见……
摘要
一篇分析AI智能体可靠性的论文,已被ICML 2026接收。研究发现,即使是最新的前沿模型(GPT 5.5、Gemini 3.1 Pro、Claude Opus 4.7),相较于早期版本也仅有微小的可靠性提升,结果一致性较低,且智能体框架中依然存在持续性问题。
查看缓存全文
缓存时间: 2026/06/06 01:21
非常激动地分享我们的论文《迈向AI智能体可靠性科学》被ICML 2026接收!首尔见!
我们刚刚发布了最终版,包含三项重要更新(详情如下)。我们还录制了一个关于论文贡献的短视频。
主要变更(完整讨论见 https://hal.cs.princeton.edu/reliability/#updates…):
- 我们在评估中加入了最新一代前沿模型(GPT-5.5、Gemini 3.1 Pro 与 3.5 Flash、以及 Claude Opus 4.7),发现它们在可靠性上并未比之前发布的模型有实质性提升。智能体可靠性仍远未解决。
- 我们更新了结果一致性指标的定义与测量方法,最初发布的预印本中存在一处笔误,导致我们在初始结果中低估了结果一致性。我们已更新论文和代码库以使用修正后的指标。尽管如此,我们的新结果仍显示,许多报告的模型在结果一致性上出奇地低。
- 我们在用于GAIA实验的HAL通用智能体框架中发现了多个问题。尤其明显的是,我们发现了多例答案泄露以及智能体在评估中作弊的情况。这导致我们在准确性和可靠性上都略有高估。同时,我们注意到框架在允许的软件库导入方面过于受限,这又导致我们在准确性和可靠性上都略有低估。我们对框架进行了严格审计并修复了这些问题。总体来看,我们发现这一变化并没有对我们的准确性和可靠性数值产生实质性影响(与原始数据相比)。
论文:https://arxiv.org/abs/2602.16666 看板:https://hal.cs.princeton.edu/reliability/ 短视频:https://youtu.be/qftDfEft7U0
与 @sayashk、@PKirgis、@khl53182440、@SaitejaUtpala 和 @random_walker 的合作成果。
HAL 可靠性评估
来源:https://hal.cs.princeton.edu/reliability/
AI 智能体可靠性追踪器
不断攀升的准确性分数暗示着快速进步,但智能体在实践中仍然会不可预测地失效。单一的成效指标掩盖了智能体是否在多次运行间表现一致、能否承受扰动、是否可预测地失效、以及是否遵守安全约束。我们在两个基准上,对15个智能体进行了跨越四个可靠性维度共12个指标的评估——结果发现,近期的能力提升只带来了微不足道的可靠性改进。
可靠性趋势
智能体排行榜
基准
关键发现
可靠性落后于准确性提升
尽管经过了24个月的模型开发,整体可靠性随时间只有微小的改进,而准确性却稳步攀升。仅靠提升原始任务表现不足以构建可靠的AI智能体——可靠性需要超越单纯能力缩放的有针对性的关注。
可靠性提升在不同评估场景中也是不成比例的:高度结构化的环境显示出适度的进步,而开放式任务几乎没有任何改进,即使是最新模型也是如此。
结果一致性与资源一致性仍然低下
那些能够解决某个任务的智能体往往无法一致地解决。所有模型在能力(pass@k)与可靠性(pass^k)之间的差距都很显著。资源一致性同样很低,各次运行间的token和计算资源使用量方差很大——智能体对工作量的分配不可预测。
出现了一种“做什么而非何时做“的模式:智能体在分布一致性上显著高于序列一致性,说明它们在不同运行中会可靠地选择类似的动作类型,但执行顺序却不稳定。要提高可靠性,不仅需要更好的动作选择,还需要更稳定的规划与执行。
校准提升,但辨别力停滞不前
校准——预测置信度与实际准确性之间的对齐程度——在近期前沿模型中有了明显改善。然而,辨别力——即区分智能体能够解决和无法解决的任务的能力——在各个基准上呈现分歧趋势,有的甚至变得更差。
仅校准提升并不能保证可靠的失效识别。一个智能体可能表达出校准良好的置信度,但仍然无法区分正确与错误的预测。两个子指标必须独立测量。
鲁棒性趋于饱和,但提示敏感性区分不同模型
故障鲁棒性和结构鲁棒性在大多数模型中表现出天花板效应——智能体能够优雅地处理真正的技术故障。相比之下,提示鲁棒性仍然是一个关键的区分因素:对表层指令释义的敏感性在不同模型间差异很大。
这种模式是反直觉的:模型能够承受真实的基础设施故障,却对任务描述的浅层变化敏感——这对实际部署至关重要,因为用户的指令自然会变化。
可靠性并不随能力均匀扩展
虽然校准、鲁棒性和安全性通常随模型规模增大而改善,但一致性却常常呈现相反的模式:较小的模型往往能达到与其较大版本同等或更高的一致性。推理模型总体上更可靠,但其可靠性提升速度不如准确性提升快。
较大的模型有更多可用的解决路径,这增加了运行间的变异性。这表明仅靠缩放规模无法解决可靠性问题——需要有针对性的架构和训练干预。
安全性提升,但高严重性违规依然存在
最新的前沿模型总体上表现出显著较低的违规率。然而,金融准确性违规——错误的收费和退款——仍然是最常见的失效模式。即使不频繁的高严重性失效也可能带来巨大成本,并构成部署的关键障碍。
基准质量也很重要:当在去除评分错误后的已验证任务子集上评估时,安全性和可预测性几乎普遍改善,这突显了干净评估数据的重要性。
可靠性增益在各基准间不成比例
可靠性特征高度依赖于任务类型。一个在开放式多步推理上可靠的智能体可能在结构化客服任务上表现不佳,反之亦然。同一智能体在不同基准上的维度级得分差异很大。
这凸显了多基准评估的必要性。单一基准的可靠性分数可能具有误导性——必须跨不同任务结构对智能体进行测试,才能构建其可靠性的完整图景。
建议
使用动态、多次运行的评估协议
在固定基准上进行单次运行评估只能提供误导性的狭窄能力视图。应使用多次运行协议来评估同一任务上的方差,使用多条件协议系统地扰动用户输入,以及使用定期重新评估来检测静默退化。
当前基准过于静态。采用参数化测试集的生成式基准(重命名字段、重新排序响应、注入故障)将提供更真实和更稳健的评估。
为可靠性而明确设计智能体
校准和安全性已有明显改善——这是有意优化奏效的证据。相比之下,一致性和辨别力进展甚微,表明它们尚未成为明确的优化目标。在智能体开发中应使可靠性维度可测量、可操作。
仅以能力为导向的评估会错过可操作的优化目标。使用可靠性指标来识别哪些维度缺乏进展、需要关注。
使用可靠性指标进行部署治理
将可靠性视为部署的先决条件,类似于航空安全标准。在生产部署前设置一致性和安全性的最低阈值,建立事件报告机制,并使用多维可靠性指标指导变更管理决策。
组织应要求部署前进行可靠性认证,而非仅评估能力。通过明确测量,不同维度的针对性优化将变得可行。
区分自动化与增强型用例
不同用例的可靠性要求根本不同。对于增强型(编码助手、副驾驶),中等可靠性可能足够,因为人类会审查输出。对于自动化型(客服、数据库管理),可靠性是硬性先决条件——90%的成功率加上不可预测的10%失败是不可接受的。
随着领域向更大的智能体自主性推进,可靠性门槛将显著提高。部署标准应因地制宜,并随自主行动程度而扩展。
最终版本的新内容
我们的最终发表论文包含三项实质性更新:最新前沿模型的结果、结果一致性指标的修正、以及框架修复——堵住了智能体在评估中获取GAIA真实答案的几个漏洞。所有框架变更记录于此PR https://github.com/princeton-pli/hal-harness/pull/179。
新前沿模型
我们之前的结果涵盖了截至2026年1月发布的前沿模型。此后,每家前沿提供商都发布了更新模型:GPT-5.5、Gemini 3.1 Pro 和 3.5 Flash、以及 Claude Opus 4.7(我们尚未评估 Claude Opus 4.8)。总体而言,我们在论文中描述的总体趋势仍然成立:所有新模型在准确性上均有显著跃升,但其可靠性并没有以同样的速度提升。我们在 τ-bench 上再次看到了小幅度改进,而在 GAIA 上,GPT-5.5 和 Opus 4.7 的可靠性并不比其前辈好。
结果一致性指标修正
结果一致性的含义是:如果将同一任务多次运行,智能体每次是否返回相同的最终响应?我们对每个任务运行 K 次,观察其成功频率。每次都成功(或每次都失败)的智能体是完全一致的;一半成功一半失败则是最大程度的不一致。该分数本应落在从 1.0(始终相同结果)到 0.0(纯粹的 50/50 分裂)的平滑尺度上。
我们发现我们的指标实际上并未产生这种平滑尺度。原始公式将运行样本方差除以该任务在该成功率下可能达到的最大方差。样本方差使用了无偏的 “ddof=1” 估计量,旨在从少量样本推断未知总体。我们的意图是正确的,但对于通过/失败(伯努利)数据,ddof=1 估计量会系统性地将离散程度高估 K/(K-1) 倍。结果,只要运行结果不完全一致,该比率总是大于 1;公式随后返回负数,并被裁剪为 0。其后果是每个不完全一致的任务都被压缩为零,这并非我们想要的平滑尺度。
修正方法改为使用总体方差(在我们的运行中实际观察到的离差,“ddof=0”)而非推断的样本方差。这里选择总体方差是合适的,因为我们希望描述我们观察到的运行,而非估计一个假设的总体。修正后可简化为一个干净的闭合形式:
- \text{consistency} = (2\hat{p} - 1)^2,其中 \hat{p} 是观察到的成功率;
- 它自然地落在 [0, 1] 区间内,无需裁剪;
- 在整个范围内平滑:当智能体总是与自己一致时为 1,在 50/50 分裂时为 0。
我们感谢 Ben Crestel、Davi Valério、Jonathan Almeida 和 Adriana Prado 独立提醒我们预印本中的这一错误。
框架与数据泄露修复(GAIA)
我们对 HAL 通用智能体框架进行了审计,堵住了智能体获取 GAIA 真实答案的三个途径:
input.json中的真实答案。 每个 GAIA 任务的input.json保存了任务的输入以及(为便于评估)真实标签。智能体只能访问该文件的一个特定键,但它也有权访问存储完整文件的目录。我们的第一个缓解措施对输入文件进行了清理,使其不再包含答案。Adam Stein (@adamlsteinl https://x.com/adamlsteinl/status/2042655187613995026) 最近在揭示各种基准中的这些问题方面做了重要工作。- 通过文件路径泄露基准名称。 存储的附件(许多 GAIA 任务都需要)以绝对路径传递给智能体,路径中包含
.../datasets--gaia-benchmark--GAIA/...,这实际上暴露了它正在接受常见基准的评估。我们的第二个缓解措施对路径进行了清理,使其不再包含基准名称。 - 在线镜像。 我们发现许多情况下智能体直接导航到已知的镜像(例如,托管
gaia_validation.jsonl的 HuggingFace Space)来在线查找答案。这在我们的框架中是可能的,因为相当一部分 GAIA 任务需要浏览网页。我们的第三个缓解措施阻止了对常见在线 GAIA 存储库的访问。
在审计欺骗行为的同时,我们还发现并修复了其他环境问题。智能体:
- 可以访问某些顶层 Python 包导入,但无法访问其许多子模块;
- 由于缺少导入,每个
.xlsx任务都失败; - 被提供了一个特定的
open()函数来读取文件系统受限部分的文件,但却缺少相应的write()函数。
关于
致谢
这项工作得到了普林斯顿语言与智能实验室 (PLI)、普林斯顿 AI 实验室、普林斯顿催化计划、Schmidt Sciences 和 Coefficient Giving 的支持。我们感谢 OpenAI 和 Google 提供计算积分以支持我们的实验。
相似文章
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
@aman2304: 论文被KDD 2026接收!我们正在使用自动化提示优化和评估构建前沿智能体!一如既往…
一篇关于使用自动化提示优化和评估构建前沿智能体的论文已被KDD 2026接收。
AI代理最诡异的一点:人类失败模式开始显现
作者观察到AI代理展现出类似人类的失败模式,比如在上下文压力下过度自信和跳过步骤,这表明系统可靠性更多地依赖于稳健的验证和受控环境,而不仅仅是模型智能。
Open ai
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?
对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。