Active-GRPO：用于分子优化的自适应模仿与自我改进推理

arXiv cs.LG 2026/07/02 04:00 论文

摘要

Active-GRPO 引入了一个自适应模仿与自我改进推理框架，能够动态决定何时模仿参考、何时强化模型自身的发现以进行分子优化，在 TOMG-Bench-MolOpt 基准上取得了相较于先前方法具有统计显著性的改进。

arXiv:2607.00531v1 公告类型：新摘要：科学推理是大语言模型日益重要的能力，但提高此类推理训练的鲁棒性和效率仍是一个关键未解决问题。我们在基于指令的分子优化中研究这一问题，其中仅回答的监督微调（SFT）会破坏多步推理，而基于可验证奖励的强化学习（RLVR）则面临稀疏反馈问题。参考引导策略优化通过将策略更新锚定到数据集提供的参考来缓解这两方面的问题，但其效果与参考质量紧密相关：弱参考或错位参考会形成性能上限。为突破这一上限，我们提出主动推理范式，其中策略基于每个实例主动决定何时模仿参考、何时强化自身发现，并持续升级其模仿的对象。我们将该范式实例化为主动组相对策略优化（Active-GRPO），通过两个耦合机制实现：主动模仿-强化与主动参考。前者在参考仍优于策略自身候选时进行模仿学习，一旦策略生成超过参考的分子，则通过强化学习转向自我改进。后者通过将当前发现的最佳策略生成候选替换参考来持续升级参考本身，逐步提高模仿目标，确保训练全程参考引导保持信息性而非限制性。在 TOMG-Bench MOLOPT 上，Active-GRPO 在匹配的三次种子评估下，将平均 SRxSim 从 GRPO 的 0.0959 和 RePO 的 0.1665 提升至 0.1773，并在 LogP、MR 和 QED 指标上取得具有统计显著性的提升。

查看原文

查看缓存全文

缓存时间: 2026/07/02 05:38

# Active-GRPO: 面向分子优化的自适应模仿与自我改进推理

**来源:** https://arxiv.org/html/2607.00531

薛峰刘¹*， 明轩曹²*†， 秦楠黄³， 托马斯·布雷廷⁵， 里克·L·史蒂文斯⁴,⁵， 乐聪¹

¹斯坦福大学医学院
²芝加哥大学数据科学研究所
³芝加哥大学普利兹克分子工程学院
⁴芝加哥大学计算机科学系
⁵阿贡国家实验室

*共同第一作者。通讯作者：薛峰刘 <[email protected]> (https://arxiv.org/html/2607.00531v1/mailto:[email protected])， 明轩曹 <[email protected]> (https://arxiv.org/html/2607.00531v1/mailto:[email protected])

###### 摘要

科学推理是大语言模型日益重要的能力，然而提升此类推理训练的稳健性和效率仍是一个关键开放挑战。我们在基于指令的分子优化中研究这一问题，其中仅提供答案的监督微调（SFT）会压缩多步推理，而具有可验证奖励的强化学习（RLVR）则面临奖励稀疏的问题。参考引导策略优化（RePO）通过将策略更新锚定到数据集提供的参考来缓解这两种问题，但其效果与参考质量紧密相关：薄弱或错位的参考会带来性能天花板。为突破这一天花板，我们提出主动推理这一范式，其中策略主动地、在逐个样本基础上决定*何时*模仿参考以及*何时*强化自身发现，同时持续升级*模仿什么*。我们将该范式具体实现为主动组相对策略优化（Active-GRPO），通过两个耦合机制实现：*主动模仿-强化*和*主动参考更新*。前者在参考仍然优于策略自身候选时执行模仿学习，一旦策略生成了超越参考的分子，则转向通过强化学习进行自我改进。后者通过将参考替换为迄今发现的最佳策略生成候选，持续升级参考本身，逐步提升模仿目标，确保在整个训练过程中参考引导保持信息性而非限制性。在TOMG-BenchMolOpt基准上，在匹配的三次随机种子评估下，Active-GRPO将平均SR×Sim从GRPO的0.0959和RePO的0.1665提升至0.1773，在LogP、MR和QED上均具有统计显著性提升。

## 1 引言

大语言模型（LLM）已迅速成为通用推理引擎，在需要多步推理而非表面模式匹配的任务上展现了强大性能[17，38]。通过思维链提示[52]、推理轨迹的监督微调（SFT）[36,56]以及具有可验证奖励的强化学习（RLVR）[19,28]的进步，现代LLM现在可以解决竞赛级别的数学问题[11,20]、编写和调试复杂代码[9,24]，并在多个领域进行结构化分析。这一进展激发了越来越多的研究工作，将LLM推理应用于科学发现[1,51]，其中成功往往依赖于在领域特定约束下导航组合庞大的假设空间。从假设生成、实验设计到化学、生物学和材料科学中的候选筛选[7,23,49]，LLM正日益被定位为主动的推理者——提出、评估并改进科学制品——而不是被动的答案提供者。然而，使此类推理在训练中既*稳健*又*样本高效*仍是一个核心开放挑战——尤其是在输出必须满足严格的、程序化可验证约束的科学领域中。

在这些科学推理任务中，基于指令的分子优化已成为一个极具挑战性的测试平台[29,31]。给定一个源分子和一个指定所需属性变化的自然语言指令——例如，在保持结合亲和力的同时改善水溶性——模型必须提出一个结构相似但属性得到改善的候选分子[25,26]。该任务处于药物发现[34,49]、农用化学品设计[12]和材料开发[7,45]的核心，同时施加了紧密耦合的约束。输出必须是语法有效的分子[53]，与输入骨架保持高度结构相似性[4,6]，在一个或多个——通常是相互竞争的——属性目标上实现可测量的改进[8,22]，并忠实地遵循用户的指令[14,30]。因此，与开放生成不同，分子优化需要在结构化化学对象上进行受约束的多目标推理，每个候选都可以通过程序化属性预测器和相似性度量进行验证[15,41]。

针对该场景的现有训练范式表现出特征性的失败。仅提供答案的SFT[39,50]迫使模型记忆输入输出映射，而不阐述化学原理，压缩了多步推理[10,33]，并限制了对未见指令风格的泛化。RLVR[19,28]直接针对程序化属性检查器进行优化，原则上保留了推理，但在实践中面临稀疏反馈[2,43]：在严格的相似性约束下，大多数采样分子无法通过有效性或相似性门控，获得零奖励，使策略缺乏学习信号。参考引导策略优化（RePO）[32]通过将策略更新锚定到数据集提供的参考分子[25,29]来缓解这两种问题，融合了模仿和基于奖励的学习，使训练信号更加稠密，并继承了基于演示学习的稳定性优势[21,37,40,42]。然而，RePO的有效性与参考的静态质量紧密相关。当参考薄弱、有噪声或与指令不一致时[5,16]，模仿信号会主动将策略拉离其可能发现的更好解决方案，从而产生一个由数据集决定而非策略真实能力的性能天花板。

为突破这一天花板，我们提出*主动推理*，一种训练范式，其中“主动”指主动决定何时模仿参考、何时强化自身发现以及模仿什么目标；而“推理”指审慎的生成过程。我们将该范式具体实现为**主动组相对策略优化**（Active-GRPO），它将主动推理与两种机制耦合：*主动模仿-强化*和*主动参考更新*。主动模仿-强化机制在参考仍优于策略自身候选时执行模仿学习，一旦策略生成了超越参考的分子，则转向通过强化学习进行自我改进。主动参考更新机制通过将参考替换为迄今发现的最佳策略生成候选，持续升级参考本身，随着训练的进行逐步提升模仿目标。这些机制共同确保参考引导保持*信息性*而非*限制性*，推动策略从*向参考学习*过渡到*超越参考的学习*。通过构造，这使得参考引导在整个参考质量谱系中保持稳健。

参见图注
图1：Active-GRPO的概念动机。RePO持续模仿固定参考，当策略改进时该参考可能变得过时。Active-GRPO则自适应地调整模仿强度和目标引导，实现从参考模仿到主动自我改进的转变。

我们在涵盖不同属性目标、指令风格和参考质量区间的分子优化基准套件上评估Active-GRPO。我们的贡献有三重：

- • 我们识别并正式刻画了参考引导策略优化中的*静态参考天花板*，表明当固定数据集参考低于策略自身能力时，它们可能系统性地误导训练。
- • 我们引入*主动推理*作为参考引导训练的范式，并将其具体实现为Active-GRPO，它通过耦合主动模仿-强化和主动参考更新，使参考引导对参考质量具有稳健性并随时间自我改进。
- • 我们通过实验表明，Active-GRPO持续优于RePO和GRPO基线，在不同参考质量区间下提供更稳健的优化，并在竞争性化学目标之间实现更优的平衡——从而确立自适应参考引导作为超越静态监督限制的原则性路径。

## 2 预备知识

### 2.1 问题形式化：基于指令的分子生成

我们研究带有参考引导的基于指令的分子生成。模型接收一个自然语言规格说明，附有任务相关的分子上下文（通常是输入分子和优化约束），并生成一个满足规格说明的候选分子SMILES[53]。SMILES是分子图的字符串表示，广泛应用于化学语言建模和化学信息学。每个训练实例将一个条件上下文 \(c_i\) 与数据集提供的参考分子 \(m_{\text{ref}, i}\) 配对，在训练期间提供答案级别的引导。

##### 数据和提示。
令 \(\mathcal{D} = \{z_i\}_{i=1}^N\) 为训练集，其中每个实例为 \(z_i = (c_i, m_{\text{ref}, i})\)。这里 \(c_i\) 是任务相关的条件上下文，而 \(m_{\text{ref}, i}\) 是数据集提供的参考分子。两者扮演不同角色：\(c_i\) 指定优化问题并调节奖励评估，而 \(m_{\text{ref}, i}\) 在训练期间作为答案级别的引导目标。

##### 推理增强型生成。
策略 \(\pi_\theta\) 被训练为生成一个将推理轨迹与最终答案交错组合的结构化输出：\(o = \texttt{<reason>} \tau \texttt{</reason>} \texttt{<answer>} \widehat{m} \texttt{</answer>}\)。这里 \(\tau\) 是自由形式的自然语言推理轨迹，\(\widehat{m}\) 是候选分子SMILES。这种格式遵循近期经过推理训练的LLM[19]，并非常适合分子优化：轨迹为模型提供了识别可编辑子结构、权衡修改以及在提交最终分子前检查约束的空间。我们不直接监督 \(\tau\)；仅有最终答案跨度携带显式的答案级别引导（第2.2节）。

##### 奖励。
我们假设一个定义在（候选，上下文）对上的可验证奖励 \(R(\widehat{m}; c)\)，无效或违反约束的分子获得零奖励。在MolOpt中，\(R\) 结合了所请求的属性改进与结构保持；具体成分因任务而异。我们还定义*参考奖励* \(v_{\text{ref}}(z_i) = R(m_{\text{ref}, i}; c_i)\)，用作每个实例的基线，并在我们的方法中作为比较策略最佳候选的锚点。

### 2.2 基于GRPO的推理优化

##### GRPO。
组相对策略优化（GRPO）[47] 是PPO[46]的一种仅使用actor的变体，它将学习的价值基线替换为组内奖励归一化。对于每个提示 \(x_i\)，GRPO从旧策略 \(\pi_{\theta_{\mathrm{old}}}\) 中采样 \(G\) 个轨迹 \(\{o_{i,j}\}_{j=1}^G\)，提取候选分子 \(\{\widehat{m}_{i,j}\}_{j=1}^G\)，并计算奖励 \(r_{i,j} = R(\widehat{m}_{i,j}; c_i)\)，\(\bar{r}_i = \frac{1}{G} \sum_{j=1}^G r_{i,j}\)。然后GRPO形成组归一化优势 \(\widehat{A}_{i,j} = \frac{r_{i,j} - \bar{r}_i}{\sigma_{r,i} + \varepsilon}\)，其中 \(\sigma_{r,i}\) 是组内奖励标准差。在目标层面上，GRPO可以写为

\[
\mathcal{J}_{\mathrm{GRPO}}(\theta) = \mathbb{E}_{\begin{subarray}{c} x_i \sim \mathcal{D}, \\ \{o_{i,j}\}_{j=1}^G \sim \pi_{\theta_{\mathrm{old}}}(\cdot \mid x_i) \end{subarray}} \Bigg[ \frac{1}{G} \sum_{j=1}^G \frac{1}{|o_{i,j}|} \sum_{t=1}^{|o_{i,j}|} \Big( \min\big[ \rho_{i,j,t}(\theta) \widehat{A}_{i,j}, \mathrm{clip}\bigl(\rho_{i,j,t}(\theta), 1-\epsilon, 1+\epsilon\bigr) \widehat{A}_{i,j} \big] - \beta_{\mathrm{KL}} D^{\mathrm{KL}}_{i,j,t} \Big) \Bigg],
\]

其中 \(\rho_{i,j,t}(\theta) = \frac{\pi_\theta(o_{i,j,t} \mid x_i, o_{i,j,<t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,j,t} \mid x_i, o_{i,j,<t})}\)，而 \(D^{\mathrm{KL}}_{i,j,t}\) 是相对于参考策略的KL散度项。

##### 参考引导策略优化 (RePO)。
对于分子优化，给定实例 \(z_i = (c_i, m_{\text{ref}, i})\)，RePO[32] 将第 \(i\) 个提示构建为 \(x_i = \texttt{[INST]} \cdots c_i \cdots \texttt{[/INST]}\)。设 \(v_{\text{ref}}(z_i)\) 为参考奖励，并设 \(v_{\text{top}} = \max_j R(\widehat{m}_{i,j}; c_i)\) 为策略在该组中的最佳奖励。RePO根据 \(\mathbb{1}[v_{\text{ref}} > v_{\text{top}}]\) 的指示在GRPO和模仿之间切换。形式上，它用混合目标更新：

\[
\mathcal{J}_{\mathrm{RePO}}(\theta) = \mathbb{E}_{z_i \sim \mathcal{D}} \Big[ \mathcal{J}_{\mathrm{GRPO}}(\theta; x_i) + \lambda \cdot \mathbb{1}[v_{\text{ref}} > v_{\text{top}}] \cdot \mathcal{J}_{\mathrm{imit}}(\theta; x_i) \Big],
\]

其中模仿项 \(\mathcal{J}_{\mathrm{imit}}\) 通常是在给定条件下对参考分子 \(m_{\text{ref}, i}\) 的对数似然。当参考优于策略的所有候选时，RePO施加模仿损失；否则忽略它并仅依赖GRPO。这种自适应切换使RePO优于纯RLVR（无模仿）和纯SFT（无强化），但参考本身在整个训练过程中保持不变，这可能导致其过时。

##### 训练与推理。
所有方法（GRPO、RePO、Active-GRPO）在推理期间使用相同的模型。推理时，我们通过采样 \(\tau, \widehat{m} \sim \pi_\theta(\cdot \mid x)\) 并提取最终答案跨度中的分子SMILES来生成分子。

## 3 方法

### 3.1 静态参考天花板

##### 动机：为什么高仿照参考可能会适得其反。
分子优化中的参考引导将模仿损失视为一种结构化正则化项，鼓励策略在改进期间保持接近数据集中的成功分子。这蕴含着隐含的假设：参考点本身是可取的——即它们是高奖励或相对于任务充分优化的。然而，在实践中，参考通常来自自动化规则或弱基线，因此许多参考是次优的；它们满足基本约束但通常远低于可实现的最佳值。当策略开始生成超过参考的分子时，持续模仿会引入一种形式的有偏梯度，将策略向质量较低的解拉动，抵消了策略通过自探索已经获得的增益。我们将此称为*静态参考天花板*：固定参考在策略能力之外设置了一个不可逾越的上限，限制了最终性能。

##### 正式刻画。
设 \(v_{\text{ref}}\) 是参考分子的奖励，并设 \(v^\star = \max_{m \in \mathcal{M}} R(m; c)\) 是理论上可实现的最优奖励（由 \(c\) 指定的特定任务）。对于参数化策略 \(\pi_\theta\)，RePO的混合目标可以写为

\[
\mathcal{J}_{\text{RePO}}(\theta) = \mathcal{J}_{\text{RL}}(\theta) + \lambda \cdot \mathbb{1}[v_{\text{ref}} > v_{\text{top}}] \cdot \underbrace{\mathbb{E}_{m \sim \pi_{\text{data}}(\cdot \mid c)} [\log \pi_\theta(m \mid c)]}_{\text{模仿项}}.
\]

一旦策略达到 \(v_{\text{top}} > v_{\text{ref}}\)，模仿项被禁用，训练退化为纯RLVR。然而，当 \(v_{\text{ref}} < v^\star\) 时——这是常见情况——任何在 \(v_{\text{ref}}\) 附近保持策略概率质量的机制都会减损探索。更微妙的是，当参考仅部分相关时，即使 \(v_{\text{ref}} > v_{\text{top}}\)，模仿可能将策略推向次优区域——一种伪正则化效应，它优先考虑与参考的结构接近性而非任务奖励。这显著抑制了最终性能。

### 3.2 主动模仿-强化

为了克服固定参考天花板，我们引入*主动模仿-强化*，其中模仿的强度根据参考与策略自身最佳候选之间的*相对质量*进行动态调整。关键思想是：当参考仍比策略能做的更好时，策略应模仿它（监督信号是信息性的）；当策略开始超越参考时，它应削弱模仿并转而依赖自我生成的高奖励轨迹（自强化信号更具信息性）。

为了实例化这一点，我们定义引导系数 \(\beta_{\text{guide}}\) 作为一个连续标量，控制模仿相对于RL的权重。令 \(v_{\text{top}} = \max_j R(\widehat{m}_{i,j}; c_i)\) 为第 \(i\) 个实例中策略最佳候选的奖励，并令 \(v_{\text{ref}}\) 为参考奖励。我们通过逻辑函数计算 \(\beta_{\text{guide}}\)：

\[
\beta_{\text{guide}} = \sigma_{\text{logistic}}\left( \frac{v_{\text{ref}} - v_{\text{top}}}{\alpha} \right) = \frac{1}{1 + \exp\left( -\frac{v_{\text{ref}} - v_{\text{top}}}{\alpha} \right)},
\]

其中 \(\alpha > 0\) 控制转变的尖锐程度。语义为：

- • 策略落后于参考 (\(v_{\text{top}} < v_{\text{ref}}\))：\(\beta_{\text{guide}}\) 接近1，模仿损失占主导；策略接受关于参考的监督信号。
- • 策略匹配参考 (\(v_{\text{top}} \approx v_{\text{ref}}\))：\(\beta_{\text{guide}}\) 约为0.5，模仿和强化同等加权；策略在保持接近参考的同时进行探索。
- • 策略超越参考 (\(v_{\text{top}} > v_{\text{ref}}\))：\(\beta_{\text{guide}}\) 接近0，模仿损失关闭；更新转向纯GRPO，允许策略完全依赖自生成的高奖励轨迹进行自我改进。

项 \(\alpha\) 控制过渡区域：小 \(\alpha\) 产生类似阈值的切换（类似RePO），大 \(\alpha\) 产生更平滑的混合。全文固定 \(\alpha = 0.1\)。与RePO的二元指示器不同，主动模仿-强化在\(v_{\text{top}} \approx v_{\text{ref}}\) 时允许同时使用两种监督，当策略欠佳时更强调模仿，当策略达到或超过参考时逐渐过渡到自我强化。

### 3.3 主动参考更新

即使主动模仿-强化动态调整模仿权重，它仍适用于原始参考 \(m_{\text{ref}}\)。如果参考是次优的，当策略生成超越它的候选时，模仿会被禁用——但一旦参考自身被超越，就没有进一步的机制来利用参考作为结构化指导。主动参考更新通过动态提升参考本身来弥补这一差距：每当策略生成奖励超过当前参考奖励的候选时，我们就将参考替换为最佳发现的候选。将此替换过程公式化为 \(m_{\text{ref}}^{(t)} = \arg\max_{m \in \mathcal{M}_{\text{found}}^{(t)}} R(m; c)\)，其中 \(\mathcal{M}_{\text{found}}^{(t)}\) 是到步骤 \(t\) 为止所有策略生成候选的集合（包括本批次和其他批次）。由于参考奖励现在非递减，引导系数 \(\beta_{\text{guide}}\) 永远不会完全降至零；相反，它平滑衰减，因为每次替换都会将目标重置为略高于当前策略水平的值。这在模仿和强化之间维持着一个持续的“教育性差距”，允许参考始终保持信息性。关键细节：我们仅更新参考分子；提示格式化不变，不包含参考信息。参考更新机制与主动模仿-强化结合，确保整个训练过程中模仿目标保持适当挑战性。

### 3.4 Active-GRPO算法

现在我们将组件组合成Active-GRPO。对于每个训练步骤，给定一个批量实例 \(\{z_i\}\)，我们：

1. **采样**: 对每个 \(z_i\)，从当前策略 \(\pi_\theta\) 中采样 \(G\) 个轨迹，提取候选分子 \(\{\widehat{m}_{i,j}\}\)。
2. **评估**: 计算奖励 \(r_{i,j} = R(\widehat{m}_{i,j}; c_i)\) 和参考奖励 \(v_{\text{ref},i} = R(m_{\text{ref},i}; c_i)\)。确定每个实例的 \(v_{\text{top},i} = \max_j r_{i,j}\)。
3. **引导系数**: 计算 \(\beta_{\text{guide},i} = \sigma_{\text{logistic}}\big((v_{\text{ref},i} - v_{\text{top},i}) / \alpha\big)\)。
4. **更替检查**: 如果 \(v_{\text{top},i} > v_{\text{ref},i}\)，将参考更新为 \(m_{\text{ref},i} \leftarrow \widehat{m}_{i, j^*}\)，其中 \(j^* = \arg\max_j r_{i,j}\)。

Active-GRPO：用于分子优化的自适应模仿与自我改进推理

相似文章

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

ReGRPO：面向工具使用智能体的反思增强策略优化

利用超组相对策略优化推动生物分子效用-多样性前沿

GraphPO：面向推理模型的基于图策略优化

GAGPO：广义优势分组策略优化

提交意见反馈