智能体会探索却无视：大语言模型缺乏环境好奇心

Hugging Face Daily Papers 2026/04/19 00:00 论文

摘要

学术研究指出，大语言模型智能体常在环境中发现完整解法却几乎从不利用，暴露出对开放性任务至关重要的“环境好奇心”缺失。

基于大语言模型的智能体被假定能将环境观察整合进推理：发现高度相关却意外的信息，应自然促使模型利用自身发现。我们证明，当前大语言模型智能体并不具备这种能力，难以反思或响应意外信息。在三个基准（Terminal-Bench、SWE-Bench、AppWorld）中，我们将完整任务解注入智能体环境，刻意暴露解法。结果显示，智能体在 Terminal-Bench 的 79–81% 运行中发现了这些解法，却仅在 37–50% 的情况下与之互动或利用。差距在 AppWorld 最显著：超过 90% 的尝试中，智能体看到文档写明某命令“返回本任务的完整解法”，但利用比例不足 7%。我们发现，智能体缺乏我们称之为“环境好奇心”的能力：识别并探究意外但相关观察，以响应环境刺激。我们确定影响环境好奇心的三大因素：智能体框架中的可用工具、测试时计算量、训练数据分布。实验表明，最大化好奇心的配置也在原始基准上取得最佳表现。然而，即便联合优化，智能体仍在多数试验中无视已发现的解法：当前智能体仅利用环境获取预期信息，而非修订策略或最大化利用有用刺激。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

来源：https://huggingface.co/papers/2604.17609

智能体会探索，却选择无视：大模型缺乏环境好奇心

人们默认 LLM 智能体能把环境观察融入推理。事实并非如此。

我们在环境中“埋”了完整解法——或作为文件，或作为 API 端点。智能体几乎每次都能发现，却几乎从不使用。最夸张的例子：在 AppWorld 上，gpt-oss-120b 在 97.54% 的回合里看到了一条被明文标注为“返回本任务完整解法”的 CLI 命令，却只会在 0.53% 的回合里真正调用。GLM-4.7 等模型在 Terminal-Bench、SWE-Bench、AppWorld 上均呈现同样模式。

我们把这种缺失的能力称为环境好奇心（environmental curiosity）：识别并探究“意外却相关”的观察值。它之所以重要，是因为智能体置身新环境时，必须捕捉那些微妙、意外却关键的信息才能成功，而非仅执行记忆套路。实验还发现，最大化环境好奇心的配置，在原始 benchmark 上也取得了最佳成绩。

AppWorld 上的轨迹示例：智能体执行 cli –help，看到一条“显示完整解法”的命令，却无视它，转而去探索 cli simple_note –help。97.54% 的回合发现了解法 API；0.53% 的回合真正调用。

智能体缺乏环境好奇心

我们提出两项指标度量环境好奇心：

discovery@k：智能体是否“浮出水面”了相关信息
interaction@k：智能体是否据此行动

两项指标的差距在各模型、各 benchmark 上高度一致。

柱状图对比 gpt-oss-120b、GLM-4.7、Command A 在 Terminal-Bench、AppWorld、SWE-Bench 上的 discovery@1 与 interaction@1。discovery 柱普遍居高；interaction 柱显著偏低，AppWorld 差距最大。

三大测试时因素决定环境好奇心

工具可用性
在 bash 之外再加入 str_replace_editor（SWE-agent 默认工具）虽能提升 pass@1，却系统性降低对已发现解法的 interaction。智能体更倾向于套用学会的“工具专属”套路，而非审视环境。

SWE-Bench 上的两条折线：左图 pass@1 随 str_replace_editor 加入而上升；右图“发现后调用”概率却下降，各模型、各 scaffold 皆然。

推理预算
将 gpt-oss-120b 的推理级别从 low 提到 high，interaction@1 翻三倍。且 discovery 一直很高，因此提升来自“发现后调用”概率：从 17.65%（low）升至 45.69%（high）。

Terminal-Bench 上 interaction@n 折线：低、中、高三级推理预算下，越高 interaction 率越高。

提示工程
显式指令要求“探索环境”可同时提升 interaction 与 pass@1。在原始 benchmark 上，interaction 最高的提示也恰好成绩最好。

窄域微调抑制好奇心

我们用同一基座模型在三种任务分布上微调并对比。窄域、同分布训练会削弱好奇心：在“埋了解法”的 AppWorld 上，AppWorld-SFT 的 pass@1 高于更广域的 T-Bench-SFT（44.2 vs 34.5），但 interaction@10 更低（26.9 vs 41.5）。窄域训练压缩了智能体的解空间。且好奇心无法跨域迁移：在每个埋解法的 benchmark 上，各自域内模型的 interaction 率与 pass@10 scaling 均优于域外模型。在原始 benchmark 上亦如此：窄域赢在 pass@1，广域赢在 pass@k。

未修改 benchmark 上的两条 pass@n 曲线：左图 AppWorld，窄域 AppWorld-SFT 在 k 较小时领先，但随 k 增大被更广域的 T-Bench-SFT 反超；右图 Terminal-Bench，T-Bench-SFT 全程高于 AppWorld-SFT。

讨论

当前智能体运行的是 ReACT 循环：
行动 → 观察 → 推理 → 下一步行动

环境好奇心要求对观察是否契合当前环境模型进行反思：
行动 → 观察 → 对观察进行推理与反思 → 下一步行动

即便联合优化所有测试时因素，智能体在多数试验中仍会无视已发现的解法。差距不仅在于推理配置，更根植于 LLM 的训练方式。我们提出 3 个开放问题：

后训练是否抑制了预训练可能产生的环境好奇心？抑或它从未出现？在基座模型上测量很难，因为好奇心只能通过智能体行为显现。
我们尝试了三种 SFT 方案教授“反思循环”（拒采生成好奇首步、中途删除文件、遮蔽对抗回合），均告失败。训练出环境好奇心仍是开放难题。
以结果为导向的指标（如 pass@k）把僵化执行与自适应推理同等奖励。必须辅以过程导向指标，评估智能体是否真正把推理建立在观察之上。

📜 https://arxiv.org/abs/2604.17609

Cohere 出品 ❤️

智能体会探索却无视：大语言模型缺乏环境好奇心

论文页面 - Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

智能体会探索，却选择无视：大模型缺乏环境好奇心

智能体缺乏环境好奇心

三大测试时因素决定环境好奇心

窄域微调抑制好奇心

讨论

相似文章

AI科学家产出结果，却未进行科学推理

@rohanpaul_ai：哥伦比亚大学计算机系 Vishal Misra 教授解释为何 LLM 无法提出全新科学构想

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

什么让大模型成为优秀优化器？——LLM引导演化搜索的轨迹分析

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

提交意见反馈