self-generations

标签

Cards List
#self-generations

CroCo:基于自生成的跨语言对比偏好调优

arXiv cs.CL · 2026-05-27 缓存

本文介绍了CroCo,一种基于自生成响应的跨语言对比偏好调优方法,表明在英语偏好上训练的奖励模型能够有效对其他语言的响应进行排序,在无需特定语言标注的情况下,提升模型在14种语言上的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈