基于强化学习的智能体Transformer可证明地学会搜索

arXiv cs.LG 2026/06/02 04:00 论文

reinforcement-learning transformers tree-search agentic mechanism-analysis generalization curriculum-learning

摘要

本文从理论上研究了基于Transformer的策略如何从随机树环境中的强化学习训练动态中获得搜索能力。研究表明，一个双头Transformer可以实现深度优先搜索，并且在深度分阶段课程下，这种机制会自然地从稀疏奖励信号中涌现。

arXiv:2606.00183v1 公告类型: 新提交摘要：树搜索是许多语言智能体推理和决策任务的核心抽象：智能体必须探索动作、记住失败并回溯到有希望的替代方案。然而，我们缺乏对基于Transformer的策略如何从强化学习（RL）训练动态中获得此类搜索能力的理论理解。我们在一个随机的$k$叉树环境中研究这个问题，其中智能体Transformer仅通过交互观察其轨迹历史，并在到达隐藏的叶子目标节点时获得终端奖励。我们首先构建了一个实现随机化深度优先搜索（DFS）的双头Transformer：一个头跟踪之前的动作，另一个头检测失败结果并触发回溯。然后，我们分析了深度分阶段课程下的策略梯度训练动态，表明相同的DFS机制在没有专家演示的情况下，从稀疏的强化反馈中分阶段涌现。由此产生的策略表现出深度泛化能力：仅在深度为1和深度为2的树上训练后，就能成功处理更深的完整树。我们进一步证明，在目标分布不平衡的情况下，对回报进行折扣会导致一种排序的DFS策略，该策略优先考虑概率更高的分支。总体而言，我们的结果确定了基于Transformer的搜索的一种机械化标准形式，其中注意力头专门化并协作，从上下文中提取与决策相关的轨迹，并通过RL训练将其转化为智能体动作选择。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:39

# Agentic Transformers Provably Learn to Search via Reinforcement Learning
来源：https://arxiv.org/abs/2606.00183
查看 PDF (https://arxiv.org/pdf/2606.00183)

> 摘要：树搜索是许多语言智能体推理与决策任务的核心抽象：智能体必须探索动作、记住失败路径并回溯到更有前景的替代路径。然而，我们缺乏对基于 Transformer 的策略如何从强化学习（RL）的训练动态中获得此类搜索能力的理论理解。我们在一个随机 $k$ 叉树环境中研究该问题，其中 agentic transformer 仅通过交互观察其轨迹历史，并在到达隐藏的叶节点目标时获得终端奖励。我们首先构建了一个实现随机深度优先搜索（DFS）的双头 Transformer：一个头跟踪先前的动作，另一个头检测失败结果并触发回溯。然后，我们在深度级课程学习下分析了策略梯度的训练动态，证明相同的 DFS 机制从稀疏的强化反馈中逐步涌现，且无需专家示范。由此产生的策略展现出深度泛化能力：仅在深度为 1 和深度为 2 的树上训练后，它就能成功处理更深的完整树。我们进一步证明，在不平衡的目标分布下，对回报进行折扣会得到一种排序的 DFS 策略，该策略优先处理概率更高的分支。总体而言，我们的结果揭示了基于 Transformer 的搜索的一种机制性标准形式：注意力头通过分工与协作，从上下文中提取与决策相关的轨迹信息，并通过 RL 训练将其转化为智能体动作选择。

## 提交历史

来自：Yuejie Chi [查看邮件](https://arxiv.org/show-email/403b6d8d/2606.00183) **\[v1\]** 2026年5月29日星期五 14:58:03 UTC (1,178 KB)

基于强化学习的智能体Transformer可证明地学会搜索

相似文章

在自回归强化学习策略中注入LTLf约束的神经符号方法

MechRL：强化学习代理用于机制可解释性中的电路发现

@swyx: 同感。一个非常方便的思维框架，用于理解transformer当前擅长学习哪些类型，以及它为何会遇到限制…

通过Transformer揭示UTM安全关键场景

一种基于深度强化学习（DRL）的Transformer方法用于解决开放车间调度问题

提交意见反馈