基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG 论文

摘要

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明,一个双头Transformer可以实现深度优先搜索,并且在深度分阶段课程下,这种机制会自然地从稀疏奖励信号中涌现。

arXiv:2606.00183v1 公告类型: 新提交 摘要:树搜索是许多语言智能体推理和决策任务的核心抽象:智能体必须探索动作、记住失败并回溯到有希望的替代方案。然而,我们缺乏对基于Transformer的策略如何从强化学习(RL)训练动态中获得此类搜索能力的理论理解。我们在一个随机的$k$叉树环境中研究这个问题,其中智能体Transformer仅通过交互观察其轨迹历史,并在到达隐藏的叶子目标节点时获得终端奖励。我们首先构建了一个实现随机化深度优先搜索(DFS)的双头Transformer:一个头跟踪之前的动作,另一个头检测失败结果并触发回溯。然后,我们分析了深度分阶段课程下的策略梯度训练动态,表明相同的DFS机制在没有专家演示的情况下,从稀疏的强化反馈中分阶段涌现。由此产生的策略表现出深度泛化能力:仅在深度为1和深度为2的树上训练后,就能成功处理更深的完整树。我们进一步证明,在目标分布不平衡的情况下,对回报进行折扣会导致一种排序的DFS策略,该策略优先考虑概率更高的分支。总体而言,我们的结果确定了基于Transformer的搜索的一种机械化标准形式,其中注意力头专门化并协作,从上下文中提取与决策相关的轨迹,并通过RL训练将其转化为智能体动作选择。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:39

# Agentic Transformers Provably Learn to Search via Reinforcement Learning
来源:https://arxiv.org/abs/2606.00183
查看 PDF (https://arxiv.org/pdf/2606.00183)

> 摘要:树搜索是许多语言智能体推理与决策任务的核心抽象:智能体必须探索动作、记住失败路径并回溯到更有前景的替代路径。然而,我们缺乏对基于 Transformer 的策略如何从强化学习(RL)的训练动态中获得此类搜索能力的理论理解。我们在一个随机 $k$ 叉树环境中研究该问题,其中 agentic transformer 仅通过交互观察其轨迹历史,并在到达隐藏的叶节点目标时获得终端奖励。我们首先构建了一个实现随机深度优先搜索(DFS)的双头 Transformer:一个头跟踪先前的动作,另一个头检测失败结果并触发回溯。然后,我们在深度级课程学习下分析了策略梯度的训练动态,证明相同的 DFS 机制从稀疏的强化反馈中逐步涌现,且无需专家示范。由此产生的策略展现出深度泛化能力:仅在深度为 1 和深度为 2 的树上训练后,它就能成功处理更深的完整树。我们进一步证明,在不平衡的目标分布下,对回报进行折扣会得到一种排序的 DFS 策略,该策略优先处理概率更高的分支。总体而言,我们的结果揭示了基于 Transformer 的搜索的一种机制性标准形式:注意力头通过分工与协作,从上下文中提取与决策相关的轨迹信息,并通过 RL 训练将其转化为智能体动作选择。

## 提交历史

来自:Yuejie Chi [查看邮件](https://arxiv.org/show-email/403b6d8d/2606.00183) **\[v1\]** 2026年5月29日星期五 14:58:03 UTC (1,178 KB)

相似文章

Transformer线性表示高度结构化的世界模型

arXiv cs.LG

本文证明,在数独求解轨迹上训练的Transformer构建了由领域约束组织的结构化世界模型,并识别出一个稀疏、单语义的电路,负责裸单决策规则。该工作为Transformer在组合任务上的推理提供了完全可解释的算法描述。