基于预训练文本的自评规则自博弈,为开放式任务自举后训练信号
摘要
康奈尔研究者提出 POP 自博弈框架,让大模型自行生成评分规则与训练样本,在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B,无需人工标注。
arXiv:2604.20051v1 公告类型:新
摘要:自博弈最近成为训练大语言模型(LLM)的新范式。在自博弈中,目标 LLM 先生成任务输入(如提问),再自行给出任务输出(如回答)。奖励模型对输出打分,随后用这些奖励通过强化学习(RL)训练 LLM。自博弈几乎无需人工监督,尤其适用于后训练阶段——该阶段 traditionally 需要人类或昂贵专有模型撰写高质量输入-输出对。然而,现有自博弈仅局限于数学、编程等可验证任务。本文将其拓展至更现实的开放式任务,提出 POP 自博弈框架:用同一 LLM 为每个样本合成评分规则及输入-输出对,再用规则评估输出并训练模型。我们进一步将框架锚定在内容丰富的预训练语料上,以(1)确保生成-验证差距,减少奖励作弊;(2)防止模式坍缩。在 Qwen-2.5-7B 上,POP 同时提升预训练与指令微调模型,在长文本医疗问答、创意写作、指令遵循等多任务中均获增益。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 基于预训练文本的评分自博弈:为开放任务自举后训练信号
来源:https://arxiv.org/html/2604.20051
Chengyu Huang、Sheng-Yen Chou、Zhengxin Zhang、Claire Cardie
康奈尔大学计算机系 {ch2263, sc3379, zz865, ctc9}@cornell.edu
###### 摘要
自博弈最近成为训练大语言模型(LLM)的新范式。在自博弈中,目标 LLM 先生成任务输入(如提问),再自行给出任务输出(如回答);奖励模型对输出打分,奖励随后用于强化学习(RL)训练模型。自博弈几乎无需人工标注,对需要高质量“输入-输出”对的后训练阶段尤其友好,而这些数据传统上只能由人类或昂贵专有模型撰写。然而,现有研究仅将自博弈用于数学、编程等可验证任务。本文提出 POP,一个把自博弈扩展到真实开放任务的框架:用同一模型为每条样本合成评分细则、输入-输出对,再按细则打分并训练模型。我们进一步把框架锚定在内容丰富的预训练语料上,以(1)确保“生成-验证”差距、减少奖励作弊;(2)防止模式坍塌。在 Qwen-2.5-7B 上,POP 同时提升了基座模型与指令模型的表现,涵盖长文医疗问答、创意写作、指令遵循等任务。GitHub:https://github.com/HCY123902/POP
## 1 引言
最新的大语言模型已能处理从数学解题到智能体工作流等复杂任务,但持续改进仍依赖人类或更强模型提供的高质量数据,成本高昂且稀缺,成为瓶颈。
自博弈以最小外部监督提升 LLM,本质是 RL:每轮(i)模型自产任务输入;(ii)自产任务输出;(iii)奖励模型打分;(iv)用奖励训练模型。与标准 RL 不同,自博弈连输入都无需标注。然而,现有工作局限于数学、编程等易验证领域。开放任务更重要却更难。已有研究表明,评分细则可为开放任务提供可靠奖励信号。受此启发,我们提出 POP(Pretraining-text grounded Open-domain self-Play):同一模型既当“出题人”又当“答题人”还当“评分人”,并基于预训练文本生成细则、打分、训练。
同一模型身兼三职带来风险:(1)题目多样性不足→模式坍塌;(2)答案质量低→无正向信号;(3)缺乏生成-验证差距→奖励作弊。我们通过以下方式应对:
- 将全过程锚定在预训练语料,要求题目基于文本,有标准答案的任务答案须能从文本推导;
- 评分时给模型“开卷”权限,可访问原始文本;
- 仅保留每题最高分与最低分答案用于训练,采用 Direct Preference Optimization(DPO)学习对比信号。
图 1 展示了 POP 流程:从预训练语料采样→模型 grounded 出题→生成多篇回答→基于文本生成细则→细则打分→筛选最高分/最低分构成偏好对→DPO 训练。
我们在长文医疗问答、创意写作、指令遵循三类任务上评估 POP,仅更换语料与提示词,其余框架不变。贡献:(i)提出通用开放任务自博弈后训练框架 POP;(ii)用预训练文本建立生成-验证差距,无需强监督;(iii)实验表明 POP 在 HealthBench500(+4%)、Creative Writing V3(+5%)、IFEval(+9%)、ArenaHard(+4%)等指标上均显著提升基座与指令模型。
## 2 相关工作
##### 自博弈
此前自博弈几乎只用于可验证推理任务:编程、数学、常识推理等。真实场景需要长文开放输出,如文档辅助写作、创意写作、信息抽取、开放问答等,却鲜有研究。
##### 细则奖励
为把 RL 扩展到不可验证领域,近年研究用 LLM 生成评分细则再打分。早期工作用强模型为现有问题生成二元细则;后续方法或预定义细则,或动态比较当前模型与参考模型生成新细则,或引入人工标注。然而,这些方法都依赖更强的“教师”模型或人工,成本高且教师不可用时失效。POP 则完全使用自身模型,无需外部教师。
## 3 方法
完整流程见图 1,伪代码见算法 1。
### 3.1 采样
首先选取与目标任务相关的预训练语料 D(如医疗文章、奇幻小说、通用文本)。用基础模型 π_ref 合成 I 个样本,每样本四步:
##### 题目合成
从 D 采样文档 d(≥50 词,截断 1024 词)。模型基于 d 生成新问题 x 与参考答案 y_ref:(x, y_ref) ∼ π_ref(·|P_t^qus(d))。有标准答案的任务要求答案可从 d 推导;无标准答案的任务只需与 d 相关。
##### 答题
对同一 x 采样 J 个候选答案:y_j ∼ π_ref(·|P_t^ans(x))。
##### 细则生成
基于 d、x、y_ref 及全部候选答案,模型生成问题专属细则 r:r ∼ π_ref(·|P^rub(d, x, y_ref, {y_j}))。细则含最多 K 条准则,每条包括名称、好坏描述、可选金标、权重 w_k。强制要求:
- 细则必须 grounded 于 d,有金标的从 d 提取;
- 细则必须具区分度,仅保留能区分高、低质量回答的标准;
- 当候选答案过于相似时,引入 privileged 的 y_ref 作额外参考。
##### 答案评分
用细则给每篇 y_j 打分,得报告 e_j:e_j ∼ π_ref(·|P^grade(x, r, y_j))。每条准则给出 0/1/2 三档评分,无法提取则置 0。最终得分:
s_j = Σ(w_k · s_j^k) / Σw_k
### 3.2 过滤、配对与训练
##### 预备
Direct Preference Optimization(DPO)是离线 RL 算法,可直接用偏好对训练。我们保留每题最高 s_j 与最低 s_j 的答案分别作为“胜”与“负”,构建 DPO 数据集,训练模型。相似文章
RubricEM:基于量规引导策略分解,超越可验证奖励的元强化学习
本文介绍了 RubricEM,这是一个强化学习框架,它利用量规引导的策略分解和基于反思的元策略进化,为长篇任务训练深度研究智能体。所得到的 RubricEM-8B 模型通过利用阶段感知规划和更密集的语义反馈,在长篇研究基准测试中表现出强劲的性能。
自动评分标准作为奖励:从隐性偏好到显式多模态生成准则
本文介绍了自动评分标准作为奖励(ARR)框架,该框架将隐性偏好知识外显化为多模态对齐的显式评分标准。文章提出了评分标准策略优化(RPO)以稳定策略梯度,在文生图和图像编辑任务中取得了更佳的性能。
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
G-Zero:从零数据开始的无界生成自博弈方法
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。
关于预测预训练大语言模型(LLM)的后训练潜力
本文介绍了 RuDE,这是一种通过利用响应鉴别力来预测预训练大语言模型(LLM)后训练潜力的框架,旨在解决 MMLU 等传统基准测试的局限性。