co-evolutionary-training

标签

Cards List
#co-evolutionary-training

通过联合生成与评估实现自进化深度研究

arXiv cs.CL · 6天前 缓存

来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架,将LLM同时训练为深度研究报告生成器和评估器,并通过元约束机制动态调整评估难度,防止奖励饱和。实验表明,该方法在开放式研究报告质量上取得了持续提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈