智能体会探索却无视:大语言模型缺乏环境好奇心
摘要
学术研究指出,大语言模型智能体常在环境中发现完整解法却几乎从不利用,暴露出对开放性任务至关重要的“环境好奇心”缺失。
查看缓存全文
缓存时间: 2026/04/21 15:38
论文页面 - Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity
来源:https://huggingface.co/papers/2604.17609
智能体会探索,却选择无视:大模型缺乏环境好奇心
人们默认 LLM 智能体能把环境观察融入推理。事实并非如此。
我们在环境中“埋”了完整解法——或作为文件,或作为 API 端点。智能体几乎每次都能发现,却几乎从不使用。最夸张的例子:在 AppWorld 上,gpt-oss-120b 在 97.54% 的回合里看到了一条被明文标注为“返回本任务完整解法”的 CLI 命令,却只会在 0.53% 的回合里真正调用。GLM-4.7 等模型在 Terminal-Bench、SWE-Bench、AppWorld 上均呈现同样模式。
我们把这种缺失的能力称为环境好奇心(environmental curiosity):识别并探究“意外却相关”的观察值。它之所以重要,是因为智能体置身新环境时,必须捕捉那些微妙、意外却关键的信息才能成功,而非仅执行记忆套路。实验还发现,最大化环境好奇心的配置,在原始 benchmark 上也取得了最佳成绩。
AppWorld 上的轨迹示例:智能体执行 cli –help,看到一条“显示完整解法”的命令,却无视它,转而去探索 cli simple_note –help。97.54% 的回合发现了解法 API;0.53% 的回合真正调用。
智能体缺乏环境好奇心
我们提出两项指标度量环境好奇心:
- discovery@k:智能体是否“浮出水面”了相关信息
- interaction@k:智能体是否据此行动
两项指标的差距在各模型、各 benchmark 上高度一致。
柱状图对比 gpt-oss-120b、GLM-4.7、Command A 在 Terminal-Bench、AppWorld、SWE-Bench 上的 discovery@1 与 interaction@1。discovery 柱普遍居高;interaction 柱显著偏低,AppWorld 差距最大。
三大测试时因素决定环境好奇心
工具可用性
在 bash 之外再加入 str_replace_editor(SWE-agent 默认工具)虽能提升 pass@1,却系统性降低对已发现解法的 interaction。智能体更倾向于套用学会的“工具专属”套路,而非审视环境。
SWE-Bench 上的两条折线:左图 pass@1 随 str_replace_editor 加入而上升;右图“发现后调用”概率却下降,各模型、各 scaffold 皆然。
推理预算
将 gpt-oss-120b 的推理级别从 low 提到 high,interaction@1 翻三倍。且 discovery 一直很高,因此提升来自“发现后调用”概率:从 17.65%(low)升至 45.69%(high)。
Terminal-Bench 上 interaction@n 折线:低、中、高三级推理预算下,越高 interaction 率越高。
提示工程
显式指令要求“探索环境”可同时提升 interaction 与 pass@1。在原始 benchmark 上,interaction 最高的提示也恰好成绩最好。
窄域微调抑制好奇心
我们用同一基座模型在三种任务分布上微调并对比。窄域、同分布训练会削弱好奇心:在“埋了解法”的 AppWorld 上,AppWorld-SFT 的 pass@1 高于更广域的 T-Bench-SFT(44.2 vs 34.5),但 interaction@10 更低(26.9 vs 41.5)。窄域训练压缩了智能体的解空间。且好奇心无法跨域迁移:在每个埋解法的 benchmark 上,各自域内模型的 interaction 率与 pass@10 scaling 均优于域外模型。在原始 benchmark 上亦如此:窄域赢在 pass@1,广域赢在 pass@k。
未修改 benchmark 上的两条 pass@n 曲线:左图 AppWorld,窄域 AppWorld-SFT 在 k 较小时领先,但随 k 增大被更广域的 T-Bench-SFT 反超;右图 Terminal-Bench,T-Bench-SFT 全程高于 AppWorld-SFT。
讨论
当前智能体运行的是 ReACT 循环:
行动 → 观察 → 推理 → 下一步行动
环境好奇心要求对观察是否契合当前环境模型进行反思:
行动 → 观察 → 对观察进行推理与反思 → 下一步行动
即便联合优化所有测试时因素,智能体在多数试验中仍会无视已发现的解法。差距不仅在于推理配置,更根植于 LLM 的训练方式。我们提出 3 个开放问题:
- 后训练是否抑制了预训练可能产生的环境好奇心?抑或它从未出现?在基座模型上测量很难,因为好奇心只能通过智能体行为显现。
- 我们尝试了三种 SFT 方案教授“反思循环”(拒采生成好奇首步、中途删除文件、遮蔽对抗回合),均告失败。训练出环境好奇心仍是开放难题。
- 以结果为导向的指标(如 pass@k)把僵化执行与自适应推理同等奖励。必须辅以过程导向指标,评估智能体是否真正把推理建立在观察之上。
📜 https://arxiv.org/abs/2604.17609
Cohere 出品 ❤️
相似文章
三思而后行:LLM 智能体的自主探索
本文指出自主探索是大语言模型智能体的关键能力,并提出了先探索后行动范式,该范式将信息收集与任务执行解耦,以提升适应性和实际性能。同时引入了探索检查点覆盖率作为可验证的指标,用于评估探索的广度。
人类成年人与大语言模型作为科学家:谁从主动探索中受益?
本研究探讨了主动探索是否能帮助成年人克服因果推理中的“合取性缺陷”,并在blicket探测器任务中将人类表现与大语言模型进行比较。结果表明,主动探索改善了成年人的合取推理能力,尽管仍存在一些差距,而大语言模型接近人类的准确性,但探索效率较低。
@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗?这项工作使这个问题可评分。一个代理…
一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型,发现性能随着任务复杂度的增加而急剧下降,并且推理模型优于非推理模型,但仍然存在困难。
智能体交易:当LLM智能体遇上金融市场
本文对77项关于基于LLM的交易智能体的研究进行了系统综述和证据图谱,发现架构实验正在快速扩展,但评估协议、执行语义和可再现性仍然是关键瓶颈。
大多数大语言模型评估工具是否仍然过于侧重提示词?
作者质疑当前的 LLM 评估工具是否过于关注孤立的提示词,而忽视了完整的工作流程和智能体交互,并指出逐步的准确性可能会掩盖生产环境中整体行为的偏差。