verifier-free

#verifier-free

G-Zero：从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了 G-Zero，这是一个无需验证器的框架，通过基于内在奖励和提示引导的协同进化训练，实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号，克服代理 LLM 评判者在无界任务中的局限性。

0 人收藏 0 人点赞