G-Zero：从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers 2026/05/11 00:00 论文

摘要

本文介绍了 G-Zero，这是一个无需验证器的框架，通过基于内在奖励和提示引导的协同进化训练，实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号，克服代理 LLM 评判者在无界任务中的局限性。

自我进化的大型语言模型在可验证领域中表现出色，但在无界任务中却面临挑战，因为对代理 LLM 评判者的依赖引入了能力瓶颈和奖励黑客问题。为了解决这一问题，我们引入了 G-Zero，这是一个无需验证器、支持自主自我改进的协同进化框架。我们的核心创新是 Hint-δ，这是一种内在奖励，用于量化生成模型在未经辅助的响应与基于自生成提示条件的响应之间的预测偏差。利用这一信号，我们通过 GRPO 训练提议模型，通过合成具有挑战性的查询和信息丰富的提示，持续针对生成模型的盲点。同时，我们通过 DPO 对生成模型进行优化，使其内化这些由提示引导的改进。理论上，我们证明了在理想化的标准 DPO 版本的 G-Zero 中，只要提议模型诱导足够的探索覆盖范围，且数据过滤保持伪标签得分噪声较低，就能保证最佳迭代次优性。通过完全从内部分布动态中推导监督信号，G-Zero 避开了外部评判者的能力上限，为不可验证领域中的 LLM 持续自我进化提供了一条可扩展、稳健的路径。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:32

论文页面 - G-Zero：从零数据出发的开放式生成自我博弈

来源：https://huggingface.co/papers/2605.09959

摘要

一种新颖的无验证器框架，通过内在奖励和基于提示的引导进行协同进化训练，从而实现大型语言模型的自主自我改进。

自我进化式 LLMs (https://huggingface.co/papers?q=Self-evolving%20LLMs) 在可验证领域表现出色，但在开放式任务中却面临困难，因为依赖代理 LLM 裁判 (https://huggingface.co/papers?q=proxy%20LLM%20judges) 会引入能力瓶颈和奖励作弊 (https://huggingface.co/papers?q=reward%20hacking)。为了克服这一问题，我们引入了 G-Zero (https://huggingface.co/papers?q=G-Zero)，这是一种无需验证器、支持自主自我改进的协同进化框架。我们的核心创新是 Hint-δ (https://huggingface.co/papers?q=Hint-%CE%B4)，一种内在奖励 (https://huggingface.co/papers?q=intrinsic%20reward)，用于量化 Generator 模型 (https://huggingface.co/papers?q=Generator%20model) 在无辅助响应与基于自生成提示的响应之间的预测差异。利用这一信号，Proposer 模型 (https://huggingface.co/papers?q=Proposer%20model) 通过 GRPO (https://huggingface.co/papers?q=GRPO) 进行训练，以持续针对 Generator 的盲区，合成具有挑战性的查询和信息丰富的提示。同时，Generator 通过 DPO (https://huggingface.co/papers?q=DPO) 进行优化，以内部化这些基于提示的改进。理论上，我们证明了理想化的标准 DPO (https://huggingface.co/papers?q=DPO) 版本 G-Zero (https://huggingface.co/papers?q=G-Zero) 的最佳迭代次优性保证 (https://huggingface.co/papers?q=best-iterate%20suboptimality%20guarantee)，前提是 Proposer 能够引发足够的探索覆盖 (https://huggingface.co/papers?q=exploration%20coverage)，且数据过滤 (https://huggingface.co/papers?q=data%20filteration) 能保持伪标签分数噪声 (https://huggingface.co/papers?q=pseudo-label%20score%20noise) 较低。通过完全从内部分布动态中推导监督信号，G-Zero (https://huggingface.co/papers?q=G-Zero) 避开了外部裁判的能力上限，为不可验证领域内 LLM 的持续自我进化提供了一条可扩展、稳健的路径。

查看 arXiv 页面 (https://arxiv.org/abs/2605.09959)查看 PDF (https://arxiv.org/pdf/2605.09959)GitHub (https://github.com/Chengsong-Huang/G-Zero)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.09959)

在您的 agent 中获取此论文：

hf papers read 2605\.09959

没有最新版本的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

暂无链接到此论文的模型

在模型的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。

引用此论文的数据集 0

暂无链接到此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。

引用此论文的应用空间 0

暂无链接到此论文的应用空间

在应用空间的 README.md 中引用 arxiv.org/abs/2605.09959 即可从本页建立链接。

包含此论文的合集 0

暂无包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从本页建立链接。

G-Zero：从零数据开始的无界生成自博弈方法

论文页面 - G-Zero：从零数据出发的开放式生成自我博弈

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的应用空间 0

包含此论文的合集 0

相似文章

MindZero：零标注下的在线心智推理学习

Self-Distillation Zero：自我修订将二元奖励转化为密集监督

自我对弈帮助AI在围棋中达到超人类水平，那么为何对LLM未能如此？研究人员找到了解决方案。

GRLO：从零开始迈向开放环境下的通用强化学习

从搜索到综合：训练大语言模型为零样本工作流生成器

提交意见反馈