@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗？这项工作使这个问题可评分。一个代理…

X AI KOLs Following 2026/06/16 14:55 论文

llm-agents world-models automata-learning reasoning-models evaluation agentic-automata

摘要

一篇研究论文提出了‘智能体自动机学习’来评估LLM代理是否能通过交互推断隐藏的世界模型，发现性能随着任务复杂度的增加而急剧下降，并且推理模型优于非推理模型，但仍然存在困难。

一个LLM代理真的能构建它无法看到的环境模型吗？这项工作使这个问题可评分。一个代理必须通过与预言机交互来发现隐藏的确定性有限自动机，通过成员查询（这个字符串属于吗？）和等价查询（这是目标吗？），并以经典的自动机学习算法作为强基线。真实的结果是，性能随着自动机规模的增大而急剧下降。推理模型比其他模型表现更好，但所有模型都随着规模增大而退化。为什么这很重要？关于代理的世界模型的主张通常是凭感觉的。强制代理通过查询主动重建隐藏结构是一种清晰、可控的方式，来衡量它是在建模环境还是仅仅在反应。论文：https://arxiv.org/abs/2606.16576 在我们的学院中学习构建有效的AI代理：https://academy.dair.ai

查看原文

查看缓存全文

缓存时间: 2026/06/16 15:36

一个LLM智能体真的能构建它无法看到的环境模型吗？

这项研究让这个问题变得可量化。智能体需要通过成员查询（这个字符串属于目标语言吗？）和等价查询（这是目标自动机吗？）与预言机交互，从而揭示隐藏的确定型有限自动机，并以经典自动机学习算法作为强基线。

诚实的结论是：随着自动机规模增大，性能急剧下降。推理模型比其他模型表现更好，但所有模型的表现都会随规模增大而退化。

这为什么重要？

关于智能体的世界模型的说法通常模棱两可。迫使智能体通过查询主动重建隐藏结构，是一种干净且可控的方式，用于衡量它是在对所处环境建模，还是仅仅在做出反应。

论文：https://arxiv.org/abs/2606.16576

在 DAIR 学院学习构建有效的 AI 智能体：https://academy.dair.ai

LLM 智能体能推断世界模型吗？来自智能体自动机学习的证据

来源：https://arxiv.org/abs/2606.16576 查看 PDF (https://arxiv.org/pdf/2606.16576)

**摘要：**我们提出了智能体自动机学习，以评估具备工具调用能力的 LLM 智能体在多大程度上能够通过交互揭示隐藏环境。在我们的设置中，智能体需要通过 (1) 成员查询（“这个字符串属于目标语言吗？”）和 (2) 等价查询（“这是目标自动机吗？”）与预言机交互，从而揭示隐藏的确定型有限自动机（DFA）。这为我们提供了一个可扩展的测试平台，具备可控的任务复杂度、可量化的交互效率以及强基线（经典自动机学习算法）。在评估最新 LLM 时，我们发现性能随 DFA 规模的增大而急剧下降。推理模型明显强于非推理模型，但轨迹分析揭示了在查询规划、证据整合和假设构建方面反复出现的失败。总体而言，我们的结果表明，当前的 LLM 智能体有时能执行非平凡的交互式发现，但在这项任务上远不如经典算法稳健和高效。

提交历史

来自：Reef Menaged [查看邮件 (https://arxiv.org/show-email/2c4c8fd6/2606.16576)] [v1] 2026年6月15日星期一 11:23:13 UTC (688 KB)

@dair_ai: 一个LLM代理真的能构建它无法看到的环境模型吗？这项工作使这个问题可评分。一个代理…

LLM 智能体能推断世界模型吗？来自智能体自动机学习的证据

提交历史

相似文章

@haider1: Yann LeCun 表示，没有世界模型就无法构建可靠的智能体系统。LLM没有世界模型。它们只能……

为何通用人工智能需要世界模型：大型语言模型的不足与世界模型的潜在优势

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

仅靠 LLM 能否实现 AGI？

@ProfBuehlerMIT: 对于科学而言，AI主权和基于物理的推理是不可妥协的。但如何教像Ge…这样的小型LLM呢？

提交意见反馈