verifier-free

标签

Cards List
#verifier-free

G-Zero:从零数据开始的无界生成自博弈方法

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈