基于强化学习的智能体Transformer可证明地学会搜索
摘要
本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。
arXiv:2606.00183v1 公告类型: 新提交
摘要:树搜索是许多语言智能体推理和决策任务的核心抽象:智能体必须探索动作、记住失败并回溯到有希望的替代方案。然而,我们缺乏对基于Transformer的策略如何从强化学习(RL)训练动态中获得此类搜索能力的理论理解。我们在一个随机的$k$叉树环境中研究这个问题,其中智能体Transformer仅通过交互观察其轨迹历史,并在到达隐藏的叶子目标节点时获得终端奖励。我们首先构建了一个实现随机化深度优先搜索(DFS)的双头Transformer:一个头跟踪之前的动作,另一个头检测失败结果并触发回溯。然后,我们分析了深度分阶段课程下的策略梯度训练动态,表明相同的DFS机制在没有专家演示的情况下,从稀疏的强化反馈中分阶段涌现。由此产生的策略表现出深度泛化能力:仅在深度为1和深度为2的树上训练后,就能成功处理更深的完整树。我们进一步证明,在目标分布不平衡的情况下,对回报进行折扣会导致一种排序的DFS策略,该策略优先考虑概率更高的分支。总体而言,我们的结果确定了基于Transformer的搜索的一种机械化标准形式,其中注意力头专门化并协作,从上下文中提取与决策相关的轨迹,并通过RL训练将其转化为智能体动作选择。
查看缓存全文
缓存时间: 2026/06/02 15:39
# Agentic Transformers Provably Learn to Search via Reinforcement Learning 来源:https://arxiv.org/abs/2606.00183 查看 PDF (https://arxiv.org/pdf/2606.00183) > 摘要:树搜索是许多语言智能体推理与决策任务的核心抽象:智能体必须探索动作、记住失败路径并回溯到更有前景的替代路径。然而,我们缺乏对基于 Transformer 的策略如何从强化学习(RL)的训练动态中获得此类搜索能力的理论理解。我们在一个随机 $k$ 叉树环境中研究该问题,其中 agentic transformer 仅通过交互观察其轨迹历史,并在到达隐藏的叶节点目标时获得终端奖励。我们首先构建了一个实现随机深度优先搜索(DFS)的双头 Transformer:一个头跟踪先前的动作,另一个头检测失败结果并触发回溯。然后,我们在深度级课程学习下分析了策略梯度的训练动态,证明相同的 DFS 机制从稀疏的强化反馈中逐步涌现,且无需专家示范。由此产生的策略展现出深度泛化能力:仅在深度为 1 和深度为 2 的树上训练后,它就能成功处理更深的完整树。我们进一步证明,在不平衡的目标分布下,对回报进行折扣会得到一种排序的 DFS 策略,该策略优先处理概率更高的分支。总体而言,我们的结果揭示了基于 Transformer 的搜索的一种机制性标准形式:注意力头通过分工与协作,从上下文中提取与决策相关的轨迹信息,并通过 RL 训练将其转化为智能体动作选择。 ## 提交历史 来自:Yuejie Chi [查看邮件](https://arxiv.org/show-email/403b6d8d/2606.00183) **\[v1\]** 2026年5月29日星期五 14:58:03 UTC (1,178 KB)
相似文章
MechRL:强化学习代理用于机制可解释性中的电路发现
提出了 MechRL,一种利用强化学习自动发现 transformer 语言模型中电路的方案。经过多任务训练的 PPO 代理发现了与已知典型电路匹配的注意力头电路,并能泛化到一项保留任务上。
@swyx: 同感。一个非常方便的思维框架,用于理解transformer当前擅长学习哪些类型,以及它为何会遇到限制…
文章讨论了一个理解transformer学习优势及其局限性的思维框架,认为相对于能够假设并寻求真相的方法,扩展当前范式可能效率低下,并提及了对对抗性世界模型和强化学习的需求。
学习探索:通过探索感知策略优化扩展代理推理
本文提出一种探索感知的强化学习框架,使LLM代理仅在不确定性高时自适应探索,从而提升在基于文本和基于GUI的基准测试上的性能。
Harness-1:采用状态外化约束的搜索代理强化学习
介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。
Transformer线性表示高度结构化的世界模型
本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。