智能体会探索却无视:大语言模型缺乏环境好奇心
摘要
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
查看缓存全文
缓存时间: 2026/04/21 15:38
论文页面 - Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity
来源:https://huggingface.co/papers/2604.17609
智能体会探索,却选择无视:大模型缺乏环境好奇心
人们默认 LLM 智能体能把环境观察融入推理。事实并非如此。
我们在环境中“埋”了完整解法——或作为文件,或作为 API 端点。智能体几乎每次都能发现,却几乎从不使用。最夸张的例子:在 AppWorld 上,gpt-oss-120b 在 97.54% 的回合里看到了一条被明文标注为“返回本任务完整解法”的 CLI 命令,却只会在 0.53% 的回合里真正调用。GLM-4.7 等模型在 Terminal-Bench、SWE-Bench、AppWorld 上均呈现同样模式。
我们把这种缺失的能力称为环境好奇心(environmental curiosity):识别并探究“意外却相关”的观察值。它之所以重要,是因为智能体置身新环境时,必须捕捉那些微妙、意外却关键的信息才能成功,而非仅执行记忆套路。实验还发现,最大化环境好奇心的配置,在原始 benchmark 上也取得了最佳成绩。
AppWorld 上的轨迹示例:智能体执行 cli –help,看到一条“显示完整解法”的命令,却无视它,转而去探索 cli simple_note –help。97.54% 的回合发现了解法 API;0.53% 的回合真正调用。
智能体缺乏环境好奇心
我们提出两项指标度量环境好奇心:
- discovery@k:智能体是否“浮出水面”了相关信息
- interaction@k:智能体是否据此行动
两项指标的差距在各模型、各 benchmark 上高度一致。
柱状图对比 gpt-oss-120b、GLM-4.7、Command A 在 Terminal-Bench、AppWorld、SWE-Bench 上的 discovery@1 与 interaction@1。discovery 柱普遍居高;interaction 柱显著偏低,AppWorld 差距最大。
三大测试时因素决定环境好奇心
工具可用性
在 bash 之外再加入 str_replace_editor(SWE-agent 默认工具)虽能提升 pass@1,却系统性降低对已发现解法的 interaction。智能体更倾向于套用学会的“工具专属”套路,而非审视环境。
SWE-Bench 上的两条折线:左图 pass@1 随 str_replace_editor 加入而上升;右图“发现后调用”概率却下降,各模型、各 scaffold 皆然。
推理预算
将 gpt-oss-120b 的推理级别从 low 提到 high,interaction@1 翻三倍。且 discovery 一直很高,因此提升来自“发现后调用”概率:从 17.65%(low)升至 45.69%(high)。
Terminal-Bench 上 interaction@n 折线:低、中、高三级推理预算下,越高 interaction 率越高。
提示工程
显式指令要求“探索环境”可同时提升 interaction 与 pass@1。在原始 benchmark 上,interaction 最高的提示也恰好成绩最好。
窄域微调抑制好奇心
我们用同一基座模型在三种任务分布上微调并对比。窄域、同分布训练会削弱好奇心:在“埋了解法”的 AppWorld 上,AppWorld-SFT 的 pass@1 高于更广域的 T-Bench-SFT(44.2 vs 34.5),但 interaction@10 更低(26.9 vs 41.5)。窄域训练压缩了智能体的解空间。且好奇心无法跨域迁移:在每个埋解法的 benchmark 上,各自域内模型的 interaction 率与 pass@10 scaling 均优于域外模型。在原始 benchmark 上亦如此:窄域赢在 pass@1,广域赢在 pass@k。
未修改 benchmark 上的两条 pass@n 曲线:左图 AppWorld,窄域 AppWorld-SFT 在 k 较小时领先,但随 k 增大被更广域的 T-Bench-SFT 反超;右图 Terminal-Bench,T-Bench-SFT 全程高于 AppWorld-SFT。
讨论
当前智能体运行的是 ReACT 循环:
行动 → 观察 → 推理 → 下一步行动
环境好奇心要求对观察是否契合当前环境模型进行反思:
行动 → 观察 → 对观察进行推理与反思 → 下一步行动
即便联合优化所有测试时因素,智能体在多数试验中仍会无视已发现的解法。差距不仅在于推理配置,更根植于 LLM 的训练方式。我们提出 3 个开放问题:
- 后训练是否抑制了预训练可能产生的环境好奇心?抑或它从未出现?在基座模型上测量很难,因为好奇心只能通过智能体行为显现。
- 我们尝试了三种 SFT 方案教授“反思循环”(拒采生成好奇首步、中途删除文件、遮蔽对抗回合),均告失败。训练出环境好奇心仍是开放难题。
- 以结果为导向的指标(如 pass@k)把僵化执行与自适应推理同等奖励。必须辅以过程导向指标,评估智能体是否真正把推理建立在观察之上。
📜 https://arxiv.org/abs/2604.17609
Cohere 出品 ❤️
相似文章
AI科学家产出结果,却未进行科学推理
大规模研究发现,基于LLM的科学智能体68%的情况下忽视证据,极少修正信念,表明它们能执行工作流,但缺乏真正的科学推理能力。
@rohanpaul_ai:哥伦比亚大学计算机系 Vishal Misra 教授解释为何 LLM 无法提出全新科学构想
哥伦比亚大学计算机系教授 Vishal Misra 认为,LLM 只能在已习得的贝叶斯流形内插值,无法构建全新概念图谱,因此无法产生真正原创的科学突破。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
什么让大模型成为优秀优化器?——LLM引导演化搜索的轨迹分析
对15个大模型在8项任务上的大规模研究表明,优化成功的关键在于保持局部化搜索轨迹,而非初始解题能力或解的新颖性。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。