MAP:一种用于长周期交互式智能体推理的“先绘图后行动”范式
摘要
本文提出了“先绘图后行动”范式(MAP),这是一个即插即用的框架,在执行前将环境理解前置到交互式LLM智能体中,在多个基准测试中取得了一致性的性能提升,并使前沿模型在25个游戏环境中的22个上超越了接近零的基线性能。
查看缓存全文
缓存时间: 2026/05/14 04:16
论文页面 - MAP:一种用于长时域交互型智能体推理的“先映射后行动“范式
来源:https://huggingface.co/papers/2605.13037
摘要
交互型LLM智能体在执行过程中由于反应式理解而导致环境感知延迟和认知瓶颈,本文提出的“先映射后行动“范式(MAP)通过预先获取环境知识——包括全局探索、任务特定映射和知识增强执行——解决了这一问题。
当前交互型LLM智能体依赖于目标导向的逐步规划(https://huggingface.co/papers?q=goal-conditioned%20stepwise%20planning),其环境理解(https://huggingface.co/papers?q=environmental%20understanding)是在执行过程中被动获得的,而非事先建立。这种时间上的颠倒导致了延迟的环境感知:智能体必须通过试错(https://huggingface.co/papers?q=trial-and-error)来推断环境约束,从而陷入认知瓶颈(https://huggingface.co/papers?q=Epistemic%20Bottleneck),被困在低效的失败循环中。受人类可供性感知(https://huggingface.co/papers?q=affordance%20perception)和认知地图理论(https://huggingface.co/papers?q=cognitive%20map%20theory)的启发,我们提出了“先映射后行动“范式(MAP)(https://huggingface.co/papers?q=Map-then-Act%20Paradigm),这是一个即插即用框架,将环境理解前置到执行之前。MAP包含三个阶段:(1)全局探索(https://huggingface.co/papers?q=Global%20Exploration),获取环境通用先验知识;(2)任务特定映射(https://huggingface.co/papers?q=Task-Specific%20Mapping),构建结构化认知地图;(3)知识增强执行(https://huggingface.co/papers?q=Knowledge-Augmented%20Execution),基于地图解决任务。实验表明,在各种基准测试和LLM上均取得了一致的性能提升。在ARC-AGI-3(https://huggingface.co/papers?q=ARC-AGI-3)上,MAP使前沿模型在22个游戏环境中超越了接近零基线的性能。我们进一步引入了MAP-2K(https://huggingface.co/papers?q=MAP-2K)数据集,其中包含“先映射后行动“的轨迹,并表明在该数据集上训练的效果优于专家执行轨迹,这暗示理解环境比模仿更为根本。
查看arXiv页面(https://arxiv.org/abs/2605.13037)查看PDF(https://arxiv.org/pdf/2605.13037)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.13037)
在您的智能体中获取此论文:
hf papers read 2605\.13037
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
尚无模型关联此论文
请在模型的README.md中引用 arxiv.org/abs/2605.13037 以在此页面建立链接。
引用此论文的数据集0
尚无数据集关联此论文
请在数据集的README.md中引用 arxiv.org/abs/2605.13037 以在此页面建立链接。
引用此论文的Spaces0
尚无Space关联此论文
请在Space的README.md中引用 arxiv.org/abs/2605.13037 以在此页面建立链接。
包含此论文的收藏0
尚无收藏包含此论文
请将此论文添加到收藏(https://huggingface.co/new-collection)以在此页面建立链接。
相似文章
TMAS:通过多智能体协同扩展测试时计算
TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。
AIPO:通过与主动交互学习推理
本文介绍了 AIPO,一种强化学习框架,通过允许模型在探索过程中主动咨询协作智能体,从而克服能力边界,提升大语言模型的推理能力。
Agentick:用于通用序贯决策智能体的统一基准
本文介绍了 Agentick,这是一个用于评估涵盖强化学习(RL)、大型语言模型(LLM)和视觉语言模型(VLM)范式的通用序贯决策智能体的统一基准测试。该基准提供了 37 个程序化生成的任务,并揭示目前尚无单一方法占据主导地位,突显了智能体自主性方面仍有巨大的提升空间。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
工具即连续流:用于演进式智能体推理
本文介绍了 FlowAgent,这是一个新颖的框架,它利用条件流匹配将工具链重新概念化为连续轨迹生成,以提高长时序智能体推理的鲁棒性。