LLMZero：通过LLM智能体发现强化学习后训练的自适应训练策略

arXiv cs.LG 2026/06/18 04:00 论文

摘要

LLMZero利用LLM智能体通过树搜索在训练轨迹中进行搜索，发现用于强化学习后训练的自适应多参数过渡策略，该策略在多种任务中优于固定调度和网格搜索。

arXiv:2606.18388v1 Announce Type: new 摘要：强化学习后训练策略依赖于数据集，并揭示了一个反复出现的经验模式：容量参数在各个阶段单调累积，而正则化参数则主要因训练动态变化而振荡。这种区别很重要，因为固定调度将所有参数固定于固定轨迹，因此无法表达正则化必须跟踪的非平稳探索-利用权衡；该原理为多阶段训练提供了可操作的设计规则。我们通过LLMZero发现了这一点，LLMZero是一个系统，其中LLM智能体通过树搜索在训练轨迹中进行搜索，诊断每个检查点的病理并提出协调的多参数过渡。在4个不同的GRPO任务中，LLMZero发现的策略相对于基础模型提升了9%到140%，相对于网格搜索提升了6%到15%，始终优于随机搜索和基于技能的智能体。这一结构原理在不同任务间迁移，解释了为什么发现的策略在形式上定性不同却共享相似的参数动态。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:42

# 通过 LLM 智能体发现 RL 后训练的自适应训练策略

**来源**：https://arxiv.org/html/2606.18388

Haoyang Fang†, Wei Zhu†, Boran Han†, Alex Zhang, Zhenyu Pan∗,Shuo Yang∗,Shuai Zhang,Jiading Gai,Peng Tang,Cuixiong Hu∗,Xuan Zhu∗,Huzefa Rangwala∗,George Karypis∗,Bernie Wang†

Amazon \{haoyfang, weizhuq, boranhan, yuyawang\}@amazon\.com

###### 摘要

RL 后训练策略具有数据集依赖性，并呈现出一个反复出现的经验性模式：容量参数在各阶段单调累积，而正则化参数则主要根据训练动态的变化进行振荡。这种区分至关重要，因为固定调度将所有权重参数绑定在固定轨迹上，因此无法表达正则化必须跟踪的非平稳探索-利用权衡；该原则为多阶段训练提供了可操作的设计规则。我们通过 LLMZero 系统发现这一模式：在该系统中，LLM 智能体通过树搜索来探索训练轨迹，诊断每个检查点处的病态，并提出协调的多参数过渡方案。在 4 个不同的 GRPO 任务上，LLMZero 发现的策略相对于基础模型提升了 9% 到 140%，相对于网格搜索提升了 6% 到 15%，始终优于随机搜索和基于技能的智能体。该结构原则在不同任务间可迁移，为解释为何发现的策略在形式上存在质的不同却共享相似的参数动态提供了依据。

---

**LLMZero：通过 LLM 智能体发现 RL 后训练的自适应训练策略**

Haoyang Fang†, Wei Zhu†, Boran Han†, Alex Zhang,Zhenyu Pan∗,Shuo Yang∗,Shuai Zhang,Jiading Gai,Peng Tang,Cuixiong Hu∗,Xuan Zhu∗,Huzefa Rangwala∗,George Karypis∗,Bernie Wang†

Amazon \{haoyfang, weizhuq, boranhan, yuyawang\}@amazon\.com

†††LLMZero 项目核心团队。††∗工作完成于 Amazon。††本文为预印本。代码即将开源。本文实验使用 VeRL 的内部变体进行，该变体无法公开发布；我们正在积极迁移代码库，以确保与最新公开版本的 VeRL 完全兼容。

## 1 引言

固定训练调度对于 RL 后训练来说并非最优选择（Lv et al. (2025)；Wang et al. (2025a)）。在近期的大多数工作中，社区已收敛于一套有限的渐进式调度技术，这些技术保持所有其他超参数不变，并且无论数据集、模型大小或涌现的训练动态如何，都以相同的方式应用。主导方法是逐渐增加响应长度（Luo et al., 2025b; Chen et al., 2025a; He et al., 2025; Hao et al., 2025; Xiaomi et al., 2025; Luo et al., 2025a; Chen et al., 2025b; Luo et al., 2026; Ji et al., 2025）。其他方法则逐渐增加 rollout 数量（Luo et al., 2025b; Chen et al., 2025a; Song et al., 2025; Luo et al., 2026），按渐进难度分阶段训练数据（Chen et al., 2025a; Song et al., 2025; He et al., 2025; Lai and Nissim, 2026; Wan et al., 2025; Luo et al., 2026; Ji et al., 2025），或采用振荡的响应长度调度（Song et al., 2025）。这种做法源于训练基础模型以产生越来越长的思维链，但对于那些已经能够生成长推理序列的模型进行持续训练时，其合理性较差。这些指南驱动的调度并未系统性地指定*何时*触发过渡、*调整多少*，或针对给定任务*改变哪些*参数。当训练动态偏离预期（KL 散度尖峰、模型崩溃、验证停滞）时，没有系统性的机制来应对（§4.3）。我们系统发现的策略揭示了一个反复出现的结构不对称性：*容量参数（响应长度、rollouts）在所有四个任务中单调累积，而正则化参数（学习率、KL 系数、温度）则主要呈振荡*。容量参数是信息构造性的：减少响应长度或 rollouts 会丢弃先前阶段所构建的内容。正则化参数追踪一个非平稳的权衡，其中最佳的探索-利用平衡在训练过程中持续变化，使得在实践中单调衰减并不合适。这一原则在不同任务中以不同的方式体现（ChemCoTBench (Li et al., 2026) 使用 5 阶段渐进式稳定化并具有反应性 KL 尖峰；SSMR-Bench (Wang et al., 2025b) 受益于 LR/KL 振荡伴随单调容量扩展；PaperSearchQA (Burgess et al., 2026) 使用“先收紧后放松”的模式以摆脱收敛平台），但参数类别之间的底层不对称性是一致的。

为何使用 LLM 智能体进行这种搜索？简单的自适应控制器（例如，比例 KL 调整 (Schulman et al., 2017)）根据单一信号调整一个参数。而我们发现的策略需要*协调的*多维度过渡，例如同时提高学习率以摆脱平台期，同时增加 KL 惩罚以防止步长过大导致发散。所有四个最佳策略都包含同时改变 3 个以上参数的协调组合。这些协调的干预需要理解参数与训练动态之间的因果关系，而这正是 LLM 推理所提供的。我们引入了 LLMZero，一个用于发现 RL 后训练自适应训练策略的系统。LLMZero 构建了一个训练轨迹树，其中 LLM 智能体通过文本指标和可视化图表分析训练动态，然后根据观察到的训练状态提出有针对性的超参数过渡方案。一个智能的早停器会实时终止没有前景的分支，从而聚焦搜索预算。UCT（应用于树的置信上界）搜索在深化有希望的分支与探索备选方案之间取得平衡，而基于检查点的组合则能够实现多阶段策略（§3.2）。在 ChemCoTBench (Li et al., 2026)、PaperSearchQA (Burgess et al., 2026)、SSMR-Bench (Wang et al., 2025b) 和 WildSci (Liu et al., 2026) 上，LLMZero 发现了自适应策略，相对于基础模型提升了 9% 到 140%，相对于网格搜索提升了 6% 到 15%，并且在相同的迭代次数下始终优于随机搜索和基于技能的 LLM 智能体（§4）。值得注意的是，在 3 个任务上，LLMZero 在前 12 次迭代内就找到了其最佳策略，展现了高效的迭代效率。所发现的策略呈现出一致的结构模式，为社区提供了可操作的设计原则（§4.3）。除了系统本身，我们的研究结果表明，最优策略是数据集相关的，始终表现出非单调的正则化轨迹，并且无法通过固定的指南来规定（§4.3.2）。通过 LLMZero 进行的自适应训练在 0.6B 到 8B 参数规模上始终优于基础配置，表明动态感知的策略搜索可跨模型规模泛化（§4.4）。

**图 1**：LLMZero 概览。该系统构建了一个训练轨迹树，每个节点存储完整的超参数配置，并从父检查点恢复训练，通过回溯组成多阶段自适应策略。在每次迭代中，*提议者智能体*通过文本摘要和可视化图表分析训练动态（奖励、KL 散度、验证分数、梯度范数），然后提出一个新的配置以及一个要恢复的检查点。在训练过程中，*早停器*周期性地将当前运行的轨迹与最佳已完成的策略进行对比，并终止被支配的运行。

## 2 预备知识

### 2.1 训练策略形式化

我们将 RL 后训练形式化为三种复杂度递增的范式。令 M_0 表示基础模型，Θ 表示超参数空间，H_t = {(s_1, r_1), ..., (s_t, r_t)} 表示截至步骤 t 的训练历史，μ 表示验证指标。

###### 定义 1（单阶段训练）。单阶段策略选择一个固定配置并训练至完成：
σ_static = 〈(θ,0)〉， θ^* = argmax_{θ∈Θ} μ(T(M_0,θ))。 (1)
超参数优化方法（网格、随机、贝叶斯）通过运行多个独立的静态试验来搜索 Θ。

###### 定义 2（多阶段训练）。多阶段策略是一个*指南驱动*的 L > 1 阶段序列：
σ_multi = 〈(θ_1, k_1), (θ_2, k_2), ..., (θ_L, k_L)〉， θ_l ∈ Θ， k_l ∈ N，(2)
其中阶段 l 使用配置 θ_l 从步骤 k_l 开始训练。调度结构在训练开始前指定，并且不系统性地依赖于训练历史 H_t。

###### 定义 3（自适应训练）。自适应策略根据先前阶段的观察结果来选择配置和恢复训练的检查点。一个过渡策略 π 选择：
(θ_l, k_l, j_l) = π( {(θ_i, k_i, j_i, H_i)}_{i<l} )，(3)
其中 j_l ∈ {1, ..., l-1} 标识从哪个先前阶段恢复。策略可以回溯到任何更早的检查点，从而实现分支。阶段数、配置、过渡点以及恢复目标均不在训练开始前确定。RL 训练本质上是非平稳的：探索必须让位于利用的节奏取决于数据集、模型大小和奖励结构，所有这些在训练开始前都难以预测。自适应策略可以实时响应，但可能的过渡策略空间巨大，因此激发了自动化搜索的需求。

## 3 LLMZero

LLMZero（图 1）构建了一个训练轨迹树，其中每个分支点代表一个基于观察到的训练动态而选择的超参数过渡。本节描述该系统如何发现自适应策略。

### 3.1 问题形式化

给定一个数据集 D = {(x_i, m_i)}_{i=1}^N，一个基础模型 M_0，一个训练过程 T，以及一个验证指标 μ: Y × M → [0,1]，我们寻找一个最大化留出性能的自适应策略 σ^*：
σ^* = argmax_σ E_{(x,m)～D_val} [μ(T(M_0,σ)(x), m)]，
约束条件：#迭代次数 ≤ B，(4)
其中 σ = 〈(θ_1, k_1), ..., (θ_L, k_L)〉 是在线构建的（§2.1），预算 B 很小（通常为 4-16 次迭代，每次迭代需要数小时 GPU 时间）。我们将搜索建模为一个树问题。每个节点代表一个训练阶段。根节点使用默认配置。子节点通过从父检查点恢复并使用修改后的超参数继续训练（*演化*）、修复失败的运行（*调试*）或重新开始以确保多样性来创建。每个从头开始到叶子的路径形成一个候选的多阶段策略，而兄弟节点重用相同的父检查点以共享计算。

### 3.2 树搜索与子树剪枝

LLMZero 对训练轨迹执行蒙特卡洛树搜索（MCTS）。每次迭代通过 UCT 选择一个节点，通过提出一个超参数过渡（或调试一个失败）来扩展该节点，执行该训练阶段，并将验证分数反向传播。我们采用先前工作中的一种 UCT 变体，具有尺度不变的评分和虚拟子竞争；细节在附录 D 中重现以保持完整性。

##### 子树剪枝。
当一个节点无法再产生子节点时，它被标记为*终止*，并且终止的子树将从选择中排除。当一个失败的运行被成功调试后，成功修复的后代将被重新父节点化为调试链中最远祖先的兄弟节点，而该调试子树下的所有内容都会被剪枝。终止性向上传播：当一个节点完全展开且所有子节点都已终止时，该节点变为终止。

##### 搜索循环。
算法 1（附录 D）给出了完整过程。关键机制包括：（1）一个*提议者智能体*，对训练动态进行多模态分析（§3.4）；（2）一个*智能早停器*，实时终止没有前景的运行（§3.5）；以及（3）强制从头开始注入以保持多样性（§3.3）。

### 3.3 基于检查点的策略组合

当创建一个演化节点时，它会加载其父节点在步骤 k 处的模型权重，并使用修改后的超参数继续训练。连续的过渡沿着从头开始到叶子的路径组合成一个多阶段策略。我们仅恢复*模型权重*，重新初始化优化器状态和数据加载器位置。这允许在每个过渡处进行任意的配置更改（批量大小、学习率、优化器类型），同时避免继承次优的动量累加器。由于每个检查点必须持久化到磁盘以备将来可能恢复，存储成本随树深度和训练步骤线性增长。我们全程使用 LoRA，并在每个检查点仅保存适配器权重。在

LLMZero：通过LLM智能体发现强化学习后训练的自适应训练策略

相似文章

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

预训练期间的RL探索：重新审视LLM训练的策略优化

AutoLLMResearch：通过从低成本学习来优化高成本，训练研究智能体以自动化大型语言模型实验配置

从受训者到训练者：面向多智能体推理的强化学习的LLM设计训练环境

ExpRL：面向LLM中期训练的探索式强化学习

提交意见反馈