PopuLoRA: 用于推理自我博弈的LLM种群协同进化

arXiv cs.AI 2026/05/19 04:00 论文

llm self-play reinforcement-learning lora population-based-training reasoning

摘要

PopuLoRA 提出了一种基于种群的非对称自我博弈框架，用于 LLM 的 RLVR 后训练。在该框架中，教师和学生 LoRA 适配器协同进化，生成日益复杂的问题，从而克服了单智能体自我博弈的自我校准限制。

arXiv:2605.16727v1 公告类型：新摘要：我们提出了 PopuLoRA，一种基于种群的非对称自我博弈框架，用于 LLM 的可验证奖励强化学习（RLVR）后训练。教师和学生是共享冻结基座上的专用 LoRA 适配器：教师提出问题，配对的学生在程序化验证器下解决这些问题，子种群之间的交叉评估取代了限制单智能体自我博弈的自我校准。一系列 LoRA 权重空间演化算子（在数秒内生成同秩种群成员的突变和交叉）充当 7B 规模下基于种群训练循环的替换步骤。我们在 Absolute Zero Reasoner 之上实例化 PopuLoRA，并将其与每适配器计算匹配的单智能体基线进行比较。单智能体自我校准以生成其能够可靠解决的简单问题，而种群则进入协同演化军备竞赛：教师生成日益复杂的问题，学生解决率出现波动，问题空间覆盖范围在整个训练过程中不断扩大。尽管训练时奖励较低，但种群均值在三个代码基准测试（HumanEval+、MBPP+、LiveCodeBench）和七个数学基准测试（AIME 24/25、AMC 23、MATH-500、Minerva、GSM8K、OlympiadBench）上优于基线，甚至种群中最弱的成员在总体上击败了基线。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:35

# PopuLoRA: 面向推理自我对弈的LLM群体协同演化 来源：https://arxiv.org/html/2605.16727 Geoffrey Bradway\Lorenz Wolf\Maxwill Lin\Augustine N\. Mavor\-Parker\Matthew James Sargent\Vmax (2026年5月16日) ###### 摘要 我们提出**PopuLoRA**，一种基于群体的非对称自我对弈框架，用于带有可验证奖励的强化学习（RLVR）后训练大型语言模型（LLMs）。教师和学生是共享冻结基座上的专用LoRA适配器：教师提出题目，匹配的学生在程序化验证器下解答，子群体之间的交叉评估取代了限制单智能体自我对弈的自我校准。基于LoRA权重空间的演化算子族（突变和交叉操作，可在数秒内生成同秩群体成员）作为群体训练循环在7B规模的替换步骤。我们在Absolute Zero Reasoner之上实例化PopuLoRA，并与适配器计算量匹配的单智能体基线进行比较。单智能体自我校准到生成它能够可靠解决的简单题目，而群体则进入协同演化军备竞赛：教师产生越来越复杂的题目，学生解答率波动，题目空间覆盖率在整个训练过程中持续扩展。尽管训练时奖励较低，但群体均值在三个代码基准测试（HumanEval+, MBPP+, LiveCodeBench）和七个数学基准测试（AIME 24/25, AMC 23, MATH-500, Minerva, GSM8K, OlympiadBench）上优于基线，甚至群体中最弱的成员在汇总指标上也超过基线。 \correspondence\emails roger, augustine, matthew

## 1 引言

RL后训练已成为专门化大型语言模型的主流范式，从基于人类偏好数据的RLHF（Ouyang等人，2022 (https://arxiv.org/html/2605.16727#bib.bib7)）和DPO，到自我对弈微调（Chen等人，2024 (https://arxiv.org/html/2605.16727#bib.bib38)）以及大规模可验证奖励强化学习（RLVR）（Guo等人，2025 (https://arxiv.org/html/2605.16727#bib.bib39); Lambert等人，2024 (https://arxiv.org/html/2605.16727#bib.bib40)）。优化机制已经成熟，但题目的供给却尚未跟上：当前大多数系统依赖于手工策划的任务分布，其范围、难度和覆盖度必须事先选定。本文研究的开放问题是：如何**生成课程本身**，即策略训练所依赖的题目流，而不依赖人工编写的数据集，仅使用程序化验证器作为外部信号。

最直接的方法让单一模型提出自己的题目，并通过验证器自我评分，如Absolute Zero Reasoner（Zhao等人，2025 (https://arxiv.org/html/2605.16727#bib.bib28)）或更广义的单模型自我对弈（Chen等人，2024 (https://arxiv.org/html/2605.16727#bib.bib38); Kuba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib46)）。共同的缺陷是：同一个网络既生成题目，又（隐含地通过其解答率或判断）估计题目的难度。本文提供实证证据表明，这种单智能体自我生成会**自我校准**：提议者收敛到生成自己能够始终以有效格式产生并持续解答的题目，训练分布远在基座模型能力耗尽之前就坍缩到一个狭窄区间。解决办法是结构性的：使评判者与提议者成为**不同的智能体**。越来越多的研究探索这种非对称性（Chen等人，2025 (https://arxiv.org/html/2605.16727#bib.bib41); Jana等人，2026 (https://arxiv.org/html/2605.16727#bib.bib42); Liu等人，2025 (https://arxiv.org/html/2605.16727#bib.bib43); Sundaram等人，2026 (https://arxiv.org/html/2605.16727#bib.bib48); Duan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib44); Tan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib45); Ye等人，2024 (https://arxiv.org/html/2605.16727#bib.bib59); Huang等人，2025 (https://arxiv.org/html/2605.16727#bib.bib60)），但所有方法在智能体数量上都是标量的（总计≤3个智能体），无论角色是共享参数还是训练独立的网络。

我们将非对称性推进一步，建立在Sukhbaatar等人（2018 (https://arxiv.org/html/2605.16727#bib.bib2)）引入的教师提出/学生解答结构之上，用共同演化的专用**教师**和**学生**群体取代单一智能体。教师因其提出的题目对其面对的具体学生具有难度而获得奖励，学生则通过验证器获得奖励，两个子群体之间的匹配将难度转化为群体级别的信号，而非自我估计。群体动态在梯度更新之上增加了第二层探索：谱系分化、成员专业化，而基于群体训练（PBT）（Jaderberg等人，2017 (https://arxiv.org/html/2605.16727#bib.bib29)）的替换步骤重组了梯度路径已经发现的内容。

在单个节点上运行多个独立的全参数7B模型成本高昂且受内存限制，特别是当每个成员必须在共享训练循环中同时支持rollout推理和梯度更新时。因此，我们将每个群体成员实例化为共享冻结基座上的LoRA适配器（Hu等人，2022 (https://arxiv.org/html/2605.16727#bib.bib30)），从而将群体的内存占用压缩为适配器权重的总和，而非每个成员一份完整的基座副本。经典PBT（Jaderberg等人，2017 (https://arxiv.org/html/2605.16727#bib.bib29)）通过将一个智能体的完整权重复制到另一个智能体上并添加扰动来突变成员；在7B规模下，这种复制本身就很昂贵。我们的第二个贡献是一组**LoRA权重空间演化算子**（基于SVD结构、层选择和组件掩码的突变，以及DARE（Yu等人，2024 (https://arxiv.org/html/2605.16727#bib.bib31)）、受TIES启发（Yadav等人，2023 (https://arxiv.org/html/2605.16727#bib.bib32)）和任务算术（Ilharco等人，2023 (https://arxiv.org/html/2605.16727#bib.bib33)）的交叉操作，沿袭演化模型合并的精神（Akiba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib50)）），能够在数秒内生成同秩的子代，无需任何重新训练。它们作为在线PBT循环的替换步骤，使得适配器群体机制成为可行，这是先前LoRA组合工作（Huang等人，2023 (https://arxiv.org/html/2605.16727#bib.bib57); Buehler and Buehler, 2024 (https://arxiv.org/html/2605.16727#bib.bib58); Feng等人，2025b (https://arxiv.org/html/2605.16727#bib.bib55); Zhang等人，2025 (https://arxiv.org/html/2605.16727#bib.bib51)）无法实现的。

我们在Absolute Zero代码推理设置中评估，使用沙盒化Python执行器作为验证器。

### 贡献
1. **面向RLVR的基于群体的非对称自我对弈**。先前工作（Chen等人，2025 (https://arxiv.org/html/2605.16727#bib.bib41); Jana等人，2026 (https://arxiv.org/html/2605.16727#bib.bib42); Liu等人，2025 (https://arxiv.org/html/2605.16727#bib.bib43); Sundaram等人，2026 (https://arxiv.org/html/2605.16727#bib.bib48); Duan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib44); Tan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib45); Ye等人，2024 (https://arxiv.org/html/2605.16727#bib.bib59); Huang等人，2025 (https://arxiv.org/html/2605.16727#bib.bib60); Kuba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib46)）在智能体数量上是标量的（总计≤3个智能体）。PopuLoRA将其替换为教师和学生LoRA适配器群体，通过TrueSkill加权交叉评估耦合。
2. **LoRA权重空间演化算子**作为PBT替换步骤。突变和交叉在数秒内生成秩匹配的子代；最接近的是演化模型合并（Akiba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib50)），但它是离线应用的，而非在在线PBT循环内部。
3. **经验验证**：在保留的代码和数学基准测试上。群体优于适配器计算量匹配的单智能体基线；诊断分析证实它避免了我们在基线中观察到的模式坍缩。

## 2 背景与相关工作

#### RLVR与自我生成课程。
RLVR（Guo等人，2025 (https://arxiv.org/html/2605.16727#bib.bib39)）用程序化检查器替代学习到的偏好模型。AZR（Zhao等人，2025 (https://arxiv.org/html/2605.16727#bib.bib28)）将其推向逻辑极限：单个代码LLM同时提出并解答自己的题目，仅由沙盒化执行器奖励，不依赖任何外部数据集。相邻方法（STaR（Zelikman等人，2022 (https://arxiv.org/html/2605.16727#bib.bib65)），rStar-Math（Guan等人，2025 (https://arxiv.org/html/2605.16727#bib.bib64)），Self-Rewarding（Yuan等人，2024 (https://arxiv.org/html/2605.16727#bib.bib63)））也在自我生成数据上训练，但依赖固定的题目集或学习到的奖励信号；只有AZR将模型同时作为提议者和验证器检查的解答者。我们在AZR定义的三种代码推理任务类型上评估PopuLoRA：`code_i`（推理输入）、`code_o`（推理输出）和`code_f`（推理函数），所有任务均由执行器机械验证。

#### 自我对弈与非对称角色。
非对称自我对弈（Sukhbaatar等人，2018 (https://arxiv.org/html/2605.16727#bib.bib2)），其中一个智能体提出任务，另一个解答，是PopuLoRA教师-学生循环的结构祖先。在无监督环境设计（UED）文献中，PAIRED（Dennis等人，2020 (https://arxiv.org/html/2605.16727#bib.bib10)）形式化了基于遗憾的对抗性课程生成，POET（Wang等人，2019 (https://arxiv.org/html/2605.16727#bib.bib11)）共同演化环境和智能体，ACCEL（Parker-Holder等人，2022 (https://arxiv.org/html/2605.16727#bib.bib12)）添加了对关卡结构的突变算子；在多智能体竞争中涌现出自动课程（Baker等人，2020 (https://arxiv.org/html/2605.16727#bib.bib13)）。在LLM设置中，越来越多的研究将提议者和解答者分离：SPIN（Chen等人，2024 (https://arxiv.org/html/2605.16727#bib.bib38)）、Language Self-Play（Kuba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib46)）、SOAR（Sundaram等人，2026 (https://arxiv.org/html/2605.16727#bib.bib48)）、R-Zero（Huang等人，2025 (https://arxiv.org/html/2605.16727#bib.bib60)）、ALIVE（Duan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib44)）、TriPlay-RL（Tan等人，2026 (https://arxiv.org/html/2605.16727#bib.bib45)）等（附录6 (https://arxiv.org/html/2605.16727#S6)）。所有方法在智能体数量上是标量的（总计≤3个智能体）。PopuLoRA在三个方面不同：(i) 我们训练教师和学生**群体**，而非单个配对；(ii) 更新是联合且在策略上的，而非交替进行；(iii) 难度信号来自跨群体交叉评估，而非固定的目标解答率区间。

#### 基于群体的训练与LoRA演化。
经典PBT（Jaderberg等人，2017 (https://arxiv.org/html/2605.16727#bib.bib29)）复制并扰动完整智能体权重；在7B规模下，每个成员的内存占用以及复制加扰动的成本都成为瓶颈。最近的工作将演化提升到适配器空间（GENOME（Zhang等人，2025 (https://arxiv.org/html/2605.16727#bib.bib51)）、EGGROLL（Sarkar等人，2025 (https://arxiv.org/html/2605.16727#bib.bib52)）、ESSA（Korotyshova等人，2025 (https://arxiv.org/html/2605.16727#bib.bib53)）、ES-at-Scale（Qiu等人，2025 (https://arxiv.org/html/2605.16727#bib.bib54)）），但针对**固定**的适应度函数进行优化。PopuLoRA是正交的：演化作为RLVR自我对弈循环的替换步骤，其中适应度信号由群体本身通过交叉评估产生。我们将LoRA合并算子（DARE（Yu等人，2024 (https://arxiv.org/html/2605.16727#bib.bib31)）、受TIES启发（Yadav等人，2023 (https://arxiv.org/html/2605.16727#bib.bib32)）、任务算术（Ilharco等人，2023 (https://arxiv.org/html/2605.16727#bib.bib33)）以及基于SVD结构的突变）嵌入到这个在线循环中，使得子代在重组后立即重新进入梯度训练，这与离线合并（Akiba等人，2025 (https://arxiv.org/html/2605.16727#bib.bib50); Feng等人，2025b (https://arxiv.org/html/2605.16727#bib.bib55); Huang等人，2023 (https://arxiv.org/html/2605.16727#bib.bib57)）不同。进一步比较见附录6 (https://arxiv.org/html/2605.16727#S6)。

## 3 \vmaxkeepcase PopuLoRA

参考说明图 1：一次 PopuLoRA 迭代。匹配的教师-学生成对生成并解答题目，由沙盒化验证器验证；学生的失败率即为教师的奖励；每经过 $k$ 步，LoRA 演化替换最弱的成员。

PopuLoRA 保留了 AZR 的核心自我对弈循环，但用一组专门的 LoRA 适配器群体取代了单个智能体，并用匹配成员之间的交叉评估取代了自我校准的难度。图1 (https://arxiv.org/html/2605.16727#S3.F1) 展示了由此产生的训练步骤；本节其余部分将具体说明每个组件。第3.1节 (https://arxiv.org/html/2605.16727#S3.SS1) 定义了 RLVR 目标和奖励函数；第3.2节 (https://arxiv.org/html/2605.16727#S3.SS2) 描述了群体的参数化方式；第3.3节 (https://arxiv.org/html/2605.16727#S3.SS3) 详细说明了一次训练步骤；第3.4节 (https://arxiv.org/html/2605.16727#S3.SS4) 具体说明了作为 PopuLoRA 的 PBT 替换步骤的 LoRA 权重空间演化算子。

### 3.1 目标与奖励

每个群体成员通过 RLVR 优化其策略：验证器 $V$（一个沙盒化 Python 执行器加格式检查器）在每次 rollout 时发出一个标量奖励，循环中不涉及学习到的奖励模型。对于学生在一个由匹配教师提出的题目 $p$ 上的 rollout $\tau$，其奖励为：
$$
R_{\text{stu}}(\tau) = \begin{cases}
+1 & \text{如果 } V(\tau, p) = \text{正确}, \\
-0.5 & \text{如果 } V(\tau, p) = \text{不正确但格式良好}, \\
-1 & \text{如果响应格式失败}.
\end{cases}
\quad (1)
$$
对于教师提出的一个题目 $p$，随后由学生 $s$ 尝试解答，教师的奖励为：
$$
R_{\text{tea}}(p) = \begin{cases}
-1 & \text{如果 } p \text{ 无法解析、执行或非确定性}, \\
0 & \text{如果 } \rho(t, s, p) = 0, \\
1 - \rho(t, s, p) & \text{否则},
\end{cases}
\quad (2)
$$
其中 $\rho(t, s, p)$ 是该学生的 rollout 样本中解答 $p$ 的比例。当没有学生解答题目时奖励为零，这防止了教师因生成不可能或退化的题目而获得奖励。相对于单智能体 AZR，关键的结构性变化恰在于此式：教师的奖励依赖于**匹配**学生的失败率，而非提议者自身的解答率，因此难度成为群体间的量，而非自我估计。

优势使用 REINFORCE++（Hu 等人，2025 (https://arxiv.org/html/2605.16727#bib.bib6); Williams, 1992 (https://arxiv.org/html/2605.16727#bib.bib5)）基线（每个提示居中，随后全局白化处理）来估计，属于无评判器的 GRPO（Shao 等人，2024 (https://arxiv.org/html/2605.16727#bib.bib3)）家族，源自 PPO（Schulman 等人，2017 (https://arxiv.org/html/2605.16727#bib.bib4)），没有价值网络，也没有对参考模型的 KL 惩罚（$\beta_{\text{KL}} = 0$）。每次策略更新将全部三种 AZR 题目类型（`code_i`、`code_o`、`code_f`）合并为一个混合类型的批次。

PopuLoRA: 用于推理自我博弈的LLM种群协同进化

相似文章

从受训者到训练者：LLM为多智能体推理强化学习设计的训练环境

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

技能自我对弈（Skill Self-Play）：通过协同进化技能推动大语言模型能力前沿

EvoTrainer：面向自主智能体强化学习的LLM策略与训练框架协同进化

LLM-as-a-Tutor：面向不可验证强化学习的策略感知提示自适应

提交意见反馈