G-Zero:从零数据开始的无界生成自博弈方法
摘要
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。
查看缓存全文
缓存时间: 2026/05/12 07:32
论文页面 - G-Zero:从零数据出发的开放式生成自我博弈
来源:https://huggingface.co/papers/2605.09959
摘要
一种新颖的无验证器框架,通过内在奖励和基于提示的引导进行协同进化训练,从而实现大型语言模型的自主自我改进。
自我进化式 LLMs (https://huggingface.co/papers?q=Self-evolving%20LLMs) 在可验证领域表现出色,但在开放式任务中却面临困难,因为依赖代理 LLM 裁判 (https://huggingface.co/papers?q=proxy%20LLM%20judges) 会引入能力瓶颈和奖励作弊 (https://huggingface.co/papers?q=reward%20hacking)。为了克服这一问题,我们引入了 G-Zero (https://huggingface.co/papers?q=G-Zero),这是一种无需验证器、支持自主自我改进的协同进化框架。我们的核心创新是 Hint-δ (https://huggingface.co/papers?q=Hint-%CE%B4),一种内在奖励 (https://huggingface.co/papers?q=intrinsic%20reward),用于量化 Generator 模型 (https://huggingface.co/papers?q=Generator%20model) 在无辅助响应与基于自生成提示的响应之间的预测差异。利用这一信号,Proposer 模型 (https://huggingface.co/papers?q=Proposer%20model) 通过 GRPO (https://huggingface.co/papers?q=GRPO) 进行训练,以持续针对 Generator 的盲区,合成具有挑战性的查询和信息丰富的提示。同时,Generator 通过 DPO (https://huggingface.co/papers?q=DPO) 进行优化,以内部化这些基于提示的改进。理论上,我们证明了理想化的标准 DPO (https://huggingface.co/papers?q=DPO) 版本 G-Zero (https://huggingface.co/papers?q=G-Zero) 的最佳迭代次优性保证 (https://huggingface.co/papers?q=best-iterate%20suboptimality%20guarantee),前提是 Proposer 能够引发足够的探索覆盖 (https://huggingface.co/papers?q=exploration%20coverage),且数据过滤 (https://huggingface.co/papers?q=data%20filteration) 能保持伪标签分数噪声 (https://huggingface.co/papers?q=pseudo-label%20score%20noise) 较低。通过完全从内部分布动态中推导监督信号,G-Zero (https://huggingface.co/papers?q=G-Zero) 避开了外部裁判的能力上限,为不可验证领域内 LLM 的持续自我进化提供了一条可扩展、稳健的路径。
查看 arXiv 页面 (https://arxiv.org/abs/2605.09959)查看 PDF (https://arxiv.org/pdf/2605.09959)GitHub (https://github.com/Chengsong-Huang/G-Zero)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09959)
在您的 agent 中获取此论文:
hf papers read 2605\.09959
没有最新版本的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
暂无链接到此论文的模型
在模型的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。
引用此论文的数据集 0
暂无链接到此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。
引用此论文的应用空间 0
暂无链接到此论文的应用空间
在应用空间的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。
包含此论文的合集 0
暂无包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页建立链接。
相似文章
MindZero:零标注下的在线心智推理学习
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
自我对弈帮助AI在围棋中达到超人类水平,那么为何对LLM未能如此?研究人员找到了解决方案。
研究人员引入了自导自对弈(Self-Guided Self-Play, SGS),这是一种用于LLM的自我对弈算法,通过使用指引角色(Guide)对合成问题进行评分来防止奖励作弊(reward hacking)。应用于Lean4中的定理证明时,SGS超越了强化学习基线,并使7B模型胜过671B模型。
GRLO:从零开始迈向开放环境下的通用强化学习
GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。
通过联合生成与评估实现自进化深度研究
来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架,将LLM同时训练为深度研究报告生成器和评估器,并通过元约束机制动态调整评估难度,防止奖励饱和。实验表明,该方法在开放式研究报告质量上取得了持续提升。