基于预训练文本的自评规则自博弈，为开放式任务自举后训练信号

arXiv cs.CL 2026/04/23 04:00 论文

摘要

康奈尔研究者提出 POP 自博弈框架，让大模型自行生成评分规则与训练样本，在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B，无需人工标注。

arXiv:2604.20051v1 公告类型：新摘要：自博弈最近成为训练大语言模型（LLM）的新范式。在自博弈中，目标 LLM 先生成任务输入（如提问），再自行给出任务输出（如回答）。奖励模型对输出打分，随后用这些奖励通过强化学习（RL）训练 LLM。自博弈几乎无需人工监督，尤其适用于后训练阶段——该阶段 traditionally 需要人类或昂贵专有模型撰写高质量输入-输出对。然而，现有自博弈仅局限于数学、编程等可验证任务。本文将其拓展至更现实的开放式任务，提出 POP 自博弈框架：用同一 LLM 为每个样本合成评分规则及输入-输出对，再用规则评估输出并训练模型。我们进一步将框架锚定在内容丰富的预训练语料上，以（1）确保生成-验证差距，减少奖励作弊；（2）防止模式坍缩。在 Qwen-2.5-7B 上，POP 同时提升预训练与指令微调模型，在长文本医疗问答、创意写作、指令遵循等多任务中均获增益。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 10:03

# 基于预训练文本的评分自博弈：为开放任务自举后训练信号  
来源：https://arxiv.org/html/2604.20051  
Chengyu Huang、Sheng-Yen Chou、Zhengxin Zhang、Claire Cardie  
康奈尔大学计算机系 {ch2263, sc3379, zz865, ctc9}@cornell.edu  

###### 摘要  

自博弈最近成为训练大语言模型（LLM）的新范式。在自博弈中，目标 LLM 先生成任务输入（如提问），再自行给出任务输出（如回答）；奖励模型对输出打分，奖励随后用于强化学习（RL）训练模型。自博弈几乎无需人工标注，对需要高质量“输入-输出”对的后训练阶段尤其友好，而这些数据传统上只能由人类或昂贵专有模型撰写。然而，现有研究仅将自博弈用于数学、编程等可验证任务。本文提出 POP，一个把自博弈扩展到真实开放任务的框架：用同一模型为每条样本合成评分细则、输入-输出对，再按细则打分并训练模型。我们进一步把框架锚定在内容丰富的预训练语料上，以（1）确保“生成-验证”差距、减少奖励作弊；（2）防止模式坍塌。在 Qwen-2.5-7B 上，POP 同时提升了基座模型与指令模型的表现，涵盖长文医疗问答、创意写作、指令遵循等任务。GitHub：https://github.com/HCY123902/POP  

## 1 引言  

最新的大语言模型已能处理从数学解题到智能体工作流等复杂任务，但持续改进仍依赖人类或更强模型提供的高质量数据，成本高昂且稀缺，成为瓶颈。  

自博弈以最小外部监督提升 LLM，本质是 RL：每轮（i）模型自产任务输入；（ii）自产任务输出；（iii）奖励模型打分；（iv）用奖励训练模型。与标准 RL 不同，自博弈连输入都无需标注。然而，现有工作局限于数学、编程等易验证领域。开放任务更重要却更难。已有研究表明，评分细则可为开放任务提供可靠奖励信号。受此启发，我们提出 POP（Pretraining-text grounded Open-domain self-Play）：同一模型既当“出题人”又当“答题人”还当“评分人”，并基于预训练文本生成细则、打分、训练。  

同一模型身兼三职带来风险：（1）题目多样性不足→模式坍塌；（2）答案质量低→无正向信号；（3）缺乏生成-验证差距→奖励作弊。我们通过以下方式应对：  
- 将全过程锚定在预训练语料，要求题目基于文本，有标准答案的任务答案须能从文本推导；  
- 评分时给模型“开卷”权限，可访问原始文本；  
- 仅保留每题最高分与最低分答案用于训练，采用 Direct Preference Optimization（DPO）学习对比信号。  

图 1 展示了 POP 流程：从预训练语料采样→模型 grounded 出题→生成多篇回答→基于文本生成细则→细则打分→筛选最高分/最低分构成偏好对→DPO 训练。  

我们在长文医疗问答、创意写作、指令遵循三类任务上评估 POP，仅更换语料与提示词，其余框架不变。贡献：（i）提出通用开放任务自博弈后训练框架 POP；（ii）用预训练文本建立生成-验证差距，无需强监督；（iii）实验表明 POP 在 HealthBench500（+4%）、Creative Writing V3（+5%）、IFEval（+9%）、ArenaHard（+4%）等指标上均显著提升基座与指令模型。  

## 2 相关工作  

##### 自博弈  

此前自博弈几乎只用于可验证推理任务：编程、数学、常识推理等。真实场景需要长文开放输出，如文档辅助写作、创意写作、信息抽取、开放问答等，却鲜有研究。  

##### 细则奖励  

为把 RL 扩展到不可验证领域，近年研究用 LLM 生成评分细则再打分。早期工作用强模型为现有问题生成二元细则；后续方法或预定义细则，或动态比较当前模型与参考模型生成新细则，或引入人工标注。然而，这些方法都依赖更强的“教师”模型或人工，成本高且教师不可用时失效。POP 则完全使用自身模型，无需外部教师。  

## 3 方法  

完整流程见图 1，伪代码见算法 1。  

### 3.1 采样  

首先选取与目标任务相关的预训练语料 D（如医疗文章、奇幻小说、通用文本）。用基础模型 π_ref 合成 I 个样本，每样本四步：  

##### 题目合成  

从 D 采样文档 d（≥50 词，截断 1024 词）。模型基于 d 生成新问题 x 与参考答案 y_ref：(x, y_ref) ∼ π_ref(·|P_t^qus(d))。有标准答案的任务要求答案可从 d 推导；无标准答案的任务只需与 d 相关。  

##### 答题  

对同一 x 采样 J 个候选答案：y_j ∼ π_ref(·|P_t^ans(x))。  

##### 细则生成  

基于 d、x、y_ref 及全部候选答案，模型生成问题专属细则 r：r ∼ π_ref(·|P^rub(d, x, y_ref, {y_j}))。细则含最多 K 条准则，每条包括名称、好坏描述、可选金标、权重 w_k。强制要求：  
- 细则必须 grounded 于 d，有金标的从 d 提取；  
- 细则必须具区分度，仅保留能区分高、低质量回答的标准；  
- 当候选答案过于相似时，引入 privileged 的 y_ref 作额外参考。  

##### 答案评分  

用细则给每篇 y_j 打分，得报告 e_j：e_j ∼ π_ref(·|P^grade(x, r, y_j))。每条准则给出 0/1/2 三档评分，无法提取则置 0。最终得分：  
s_j = Σ(w_k · s_j^k) / Σw_k  

### 3.2 过滤、配对与训练  

##### 预备  

Direct Preference Optimization（DPO）是离线 RL 算法，可直接用偏好对训练。我们保留每题最高 s_j 与最低 s_j 的答案分别作为“胜”与“负”，构建 DPO 数据集，训练模型。

基于预训练文本的自评规则自博弈，为开放式任务自举后训练信号

相似文章

C2：基于二元偏好的可扩展评分增强奖励建模

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

SPARK：基于知识图谱的不对称奖励自博弈

利用自监督指南提升视觉指令调优

TEMPO：为大推理模型扩展测试时训练

提交意见反馈