co-evolutionary-training

#co-evolutionary-training

通过联合生成与评估实现自进化深度研究

arXiv cs.CL ↗ · 6天前缓存

来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架，将LLM同时训练为深度研究报告生成器和评估器，并通过元约束机制动态调整评估难度，防止奖励饱和。实验表明，该方法在开放式研究报告质量上取得了持续提升。

0 人收藏 0 人点赞