标签
介绍了PoQ-Judge,一种采用无参考评判模型(TextCNN、MiniLM、DeBERTa)的多架构评估框架,用于去中心化LLM推理中的成本感知质量证明,实现了与地面真值代理的高相关性,同时消除了对参考答案的需求。
Granuscore是一种用于文本分析和问答的无参考粒度度量。它利用分层嵌入空间来捕捉细粒度与粗粒度语言,并在QA基准测试中展示了模型行为的一致差异。
本文将组相对策略优化(GRPO)应用于编码器-解码器Seq2Seq模型,用于机器翻译微调,使用无需并行数据的无参考奖励(LaBSE和COMET-Kiwi),并在13种语言上取得了一致的改进。