@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗?这项工作使这个问题可评分。一个代理…

X AI KOLs Following 论文

摘要

一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型,发现性能随着任务复杂度的增加而急剧下降,并且推理模型优于非推理模型,但仍然存在困难。

一个LLM代理真的能构建它无法看到的环境模型吗? 这项工作使这个问题可评分。一个代理必须通过与预言机交互来发现隐藏的确定性有限自动机,通过成员查询(这个字符串属于吗?)和等价查询(这是目标吗?),并以经典的自动机学习算法作为强基线。 真实的结果是,性能随着自动机规模的增大而急剧下降。推理模型比其他模型表现更好,但所有模型都随着规模增大而退化。 为什么这很重要? 关于代理的世界模型的主张通常是凭感觉的。强制代理通过查询主动重建隐藏结构是一种清晰、可控的方式,来衡量它是在建模环境还是仅仅在反应。 论文:https://arxiv.org/abs/2606.16576 在我们的学院中学习构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:36

一个LLM智能体真的能构建它无法看到的环境模型吗?

这项研究让这个问题变得可量化。智能体需要通过成员查询(这个字符串属于目标语言吗?)和等价查询(这是目标自动机吗?)与预言机交互,从而揭示隐藏的确定型有限自动机,并以经典自动机学习算法作为强基线。

诚实的结论是:随着自动机规模增大,性能急剧下降。推理模型比其他模型表现更好,但所有模型的表现都会随规模增大而退化。

这为什么重要?

关于智能体的世界模型的说法通常模棱两可。迫使智能体通过查询主动重建隐藏结构,是一种干净且可控的方式,用于衡量它是在对所处环境建模,还是仅仅在做出反应。

论文:https://arxiv.org/abs/2606.16576

在 DAIR 学院学习构建有效的 AI 智能体:https://academy.dair.ai


LLM 智能体能推断世界模型吗?来自智能体自动机学习的证据

来源:https://arxiv.org/abs/2606.16576 查看 PDF (https://arxiv.org/pdf/2606.16576)

**摘要:**我们提出了智能体自动机学习,以评估具备工具调用能力的 LLM 智能体在多大程度上能够通过交互揭示隐藏环境。在我们的设置中,智能体需要通过 (1) 成员查询(“这个字符串属于目标语言吗?”)和 (2) 等价查询(“这是目标自动机吗?”)与预言机交互,从而揭示隐藏的确定型有限自动机(DFA)。这为我们提供了一个可扩展的测试平台,具备可控的任务复杂度、可量化的交互效率以及强基线(经典自动机学习算法)。在评估最新 LLM 时,我们发现性能随 DFA 规模的增大而急剧下降。推理模型明显强于非推理模型,但轨迹分析揭示了在查询规划、证据整合和假设构建方面反复出现的失败。总体而言,我们的结果表明,当前的 LLM 智能体有时能执行非平凡的交互式发现,但在这项任务上远不如经典算法稳健和高效。

提交历史

来自:Reef Menaged [查看邮件 (https://arxiv.org/show-email/2c4c8fd6/2606.16576)] [v1] 2026年6月15日 星期一 11:23:13 UTC (688 KB)

相似文章

仅靠 LLM 能否实现 AGI?

Reddit r/singularity

本文探讨了顶尖 AI 专家之间的争论:仅靠 LLM 能否实现 AGI,抑或是否需要诸如世界模型之类的额外突破。