@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗?这项工作使这个问题可评分。一个代理…
摘要
一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型,发现性能随着任务复杂度的增加而急剧下降,并且推理模型优于非推理模型,但仍然存在困难。
查看缓存全文
缓存时间: 2026/06/16 15:36
一个LLM智能体真的能构建它无法看到的环境模型吗?
这项研究让这个问题变得可量化。智能体需要通过成员查询(这个字符串属于目标语言吗?)和等价查询(这是目标自动机吗?)与预言机交互,从而揭示隐藏的确定型有限自动机,并以经典自动机学习算法作为强基线。
诚实的结论是:随着自动机规模增大,性能急剧下降。推理模型比其他模型表现更好,但所有模型的表现都会随规模增大而退化。
这为什么重要?
关于智能体的世界模型的说法通常模棱两可。迫使智能体通过查询主动重建隐藏结构,是一种干净且可控的方式,用于衡量它是在对所处环境建模,还是仅仅在做出反应。
论文:https://arxiv.org/abs/2606.16576
在 DAIR 学院学习构建有效的 AI 智能体:https://academy.dair.ai
LLM 智能体能推断世界模型吗?来自智能体自动机学习的证据
来源:https://arxiv.org/abs/2606.16576 查看 PDF (https://arxiv.org/pdf/2606.16576)
**摘要:**我们提出了智能体自动机学习,以评估具备工具调用能力的 LLM 智能体在多大程度上能够通过交互揭示隐藏环境。在我们的设置中,智能体需要通过 (1) 成员查询(“这个字符串属于目标语言吗?”)和 (2) 等价查询(“这是目标自动机吗?”)与预言机交互,从而揭示隐藏的确定型有限自动机(DFA)。这为我们提供了一个可扩展的测试平台,具备可控的任务复杂度、可量化的交互效率以及强基线(经典自动机学习算法)。在评估最新 LLM 时,我们发现性能随 DFA 规模的增大而急剧下降。推理模型明显强于非推理模型,但轨迹分析揭示了在查询规划、证据整合和假设构建方面反复出现的失败。总体而言,我们的结果表明,当前的 LLM 智能体有时能执行非平凡的交互式发现,但在这项任务上远不如经典算法稳健和高效。
提交历史
来自:Reef Menaged [查看邮件 (https://arxiv.org/show-email/2c4c8fd6/2606.16576)] [v1] 2026年6月15日 星期一 11:23:13 UTC (688 KB)
相似文章
@haider1: Yann LeCun 表示,没有世界模型就无法构建可靠的智能体系统。LLM没有世界模型。它们只能……
Yann LeCun 认为,LLM缺乏世界模型,因此无法可靠地构建智能体系统,因为它们无法预判自身行为的后果。
为何通用人工智能需要世界模型:大型语言模型的不足与世界模型的潜在优势
本文认为,大型语言模型在因果推理和长时域规划方面存在困难,其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配,并引入了潜在动态推断视角以及Flux环境来研究这些局限性。
从受训者到训练者:LLM为多智能体推理强化学习设计的训练环境
本文介绍了LLM-as-Environment-Engineer框架,该框架使LLM能够为多智能体推理任务中的强化学习设计自己的训练环境,实现自我改进训练,其性能超越更大的专有模型。
仅靠 LLM 能否实现 AGI?
本文探讨了顶尖 AI 专家之间的争论:仅靠 LLM 能否实现 AGI,抑或是否需要诸如世界模型之类的额外突破。
@ProfBuehlerMIT: 对于科学而言,AI主权和基于物理的推理是不可妥协的。但如何教像Ge…这样的小型LLM呢?
mistral.rs 现已原生支持 Agent Skills,使本地运行的小型LLM能够执行复杂的科学任务代理工作流,并完全控制模型、数据和执行。