标签
Granuscore是一种用于文本分析和问答的无参考粒度度量。它利用分层嵌入空间来捕捉细粒度与粗粒度语言,并在QA基准测试中展示了模型行为的一致差异。
本文将组相对策略优化(GRPO)应用于编码器-解码器Seq2Seq模型,用于机器翻译微调,使用无需并行数据的无参考奖励(LaBSE和COMET-Kiwi),并在13种语言上取得了一致的改进。