基于预训练文本的自评规则自博弈,为开放式任务自举后训练信号
摘要
康奈尔研究者提出 POP 自博弈框架,让大模型自行生成评分规则与训练样本,在医疗问答、创意写作、指令遵循等开放式任务上提升 Qwen-2.5-7B,无需人工标注。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 基于预训练文本的评分自博弈:为开放任务自举后训练信号
来源:https://arxiv.org/html/2604.20051
Chengyu Huang、Sheng-Yen Chou、Zhengxin Zhang、Claire Cardie
康奈尔大学计算机系 {ch2263, sc3379, zz865, ctc9}@cornell.edu
###### 摘要
自博弈最近成为训练大语言模型(LLM)的新范式。在自博弈中,目标 LLM 先生成任务输入(如提问),再自行给出任务输出(如回答);奖励模型对输出打分,奖励随后用于强化学习(RL)训练模型。自博弈几乎无需人工标注,对需要高质量“输入-输出”对的后训练阶段尤其友好,而这些数据传统上只能由人类或昂贵专有模型撰写。然而,现有研究仅将自博弈用于数学、编程等可验证任务。本文提出 POP,一个把自博弈扩展到真实开放任务的框架:用同一模型为每条样本合成评分细则、输入-输出对,再按细则打分并训练模型。我们进一步把框架锚定在内容丰富的预训练语料上,以(1)确保“生成-验证”差距、减少奖励作弊;(2)防止模式坍塌。在 Qwen-2.5-7B 上,POP 同时提升了基座模型与指令模型的表现,涵盖长文医疗问答、创意写作、指令遵循等任务。GitHub:https://github.com/HCY123902/POP
## 1 引言
最新的大语言模型已能处理从数学解题到智能体工作流等复杂任务,但持续改进仍依赖人类或更强模型提供的高质量数据,成本高昂且稀缺,成为瓶颈。
自博弈以最小外部监督提升 LLM,本质是 RL:每轮(i)模型自产任务输入;(ii)自产任务输出;(iii)奖励模型打分;(iv)用奖励训练模型。与标准 RL 不同,自博弈连输入都无需标注。然而,现有工作局限于数学、编程等易验证领域。开放任务更重要却更难。已有研究表明,评分细则可为开放任务提供可靠奖励信号。受此启发,我们提出 POP(Pretraining-text grounded Open-domain self-Play):同一模型既当“出题人”又当“答题人”还当“评分人”,并基于预训练文本生成细则、打分、训练。
同一模型身兼三职带来风险:(1)题目多样性不足→模式坍塌;(2)答案质量低→无正向信号;(3)缺乏生成-验证差距→奖励作弊。我们通过以下方式应对:
- 将全过程锚定在预训练语料,要求题目基于文本,有标准答案的任务答案须能从文本推导;
- 评分时给模型“开卷”权限,可访问原始文本;
- 仅保留每题最高分与最低分答案用于训练,采用 Direct Preference Optimization(DPO)学习对比信号。
图 1 展示了 POP 流程:从预训练语料采样→模型 grounded 出题→生成多篇回答→基于文本生成细则→细则打分→筛选最高分/最低分构成偏好对→DPO 训练。
我们在长文医疗问答、创意写作、指令遵循三类任务上评估 POP,仅更换语料与提示词,其余框架不变。贡献:(i)提出通用开放任务自博弈后训练框架 POP;(ii)用预训练文本建立生成-验证差距,无需强监督;(iii)实验表明 POP 在 HealthBench500(+4%)、Creative Writing V3(+5%)、IFEval(+9%)、ArenaHard(+4%)等指标上均显著提升基座与指令模型。
## 2 相关工作
##### 自博弈
此前自博弈几乎只用于可验证推理任务:编程、数学、常识推理等。真实场景需要长文开放输出,如文档辅助写作、创意写作、信息抽取、开放问答等,却鲜有研究。
##### 细则奖励
为把 RL 扩展到不可验证领域,近年研究用 LLM 生成评分细则再打分。早期工作用强模型为现有问题生成二元细则;后续方法或预定义细则,或动态比较当前模型与参考模型生成新细则,或引入人工标注。然而,这些方法都依赖更强的“教师”模型或人工,成本高且教师不可用时失效。POP 则完全使用自身模型,无需外部教师。
## 3 方法
完整流程见图 1,伪代码见算法 1。
### 3.1 采样
首先选取与目标任务相关的预训练语料 D(如医疗文章、奇幻小说、通用文本)。用基础模型 π_ref 合成 I 个样本,每样本四步:
##### 题目合成
从 D 采样文档 d(≥50 词,截断 1024 词)。模型基于 d 生成新问题 x 与参考答案 y_ref:(x, y_ref) ∼ π_ref(·|P_t^qus(d))。有标准答案的任务要求答案可从 d 推导;无标准答案的任务只需与 d 相关。
##### 答题
对同一 x 采样 J 个候选答案:y_j ∼ π_ref(·|P_t^ans(x))。
##### 细则生成
基于 d、x、y_ref 及全部候选答案,模型生成问题专属细则 r:r ∼ π_ref(·|P^rub(d, x, y_ref, {y_j}))。细则含最多 K 条准则,每条包括名称、好坏描述、可选金标、权重 w_k。强制要求:
- 细则必须 grounded 于 d,有金标的从 d 提取;
- 细则必须具区分度,仅保留能区分高、低质量回答的标准;
- 当候选答案过于相似时,引入 privileged 的 y_ref 作额外参考。
##### 答案评分
用细则给每篇 y_j 打分,得报告 e_j:e_j ∼ π_ref(·|P^grade(x, r, y_j))。每条准则给出 0/1/2 三档评分,无法提取则置 0。最终得分:
s_j = Σ(w_k · s_j^k) / Σw_k
### 3.2 过滤、配对与训练
##### 预备
Direct Preference Optimization(DPO)是离线 RL 算法,可直接用偏好对训练。我们保留每题最高 s_j 与最低 s_j 的答案分别作为“胜”与“负”,构建 DPO 数据集,训练模型。相似文章
C2:基于二元偏好的可扩展评分增强奖励建模
C2 提出了一种可扩展的评分增强奖励建模框架,该框架仅通过二元偏好训练一个协作的评分生成器和一个批判性验证器,无需昂贵的评分标注,同时在 RM-Bench 上实现了最高 6.5 分的提升。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
SPARK:基于知识图谱的不对称奖励自博弈
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
利用自监督指南提升视觉指令调优
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
TEMPO:为大推理模型扩展测试时训练
TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。