通过偏好学习从多个不完美指标优化摘要的事实一致性

arXiv cs.CL 2026/05/27 04:00 论文

摘要

本文介绍了一种通过偏好学习聚合多个弱指标的分数来提高文本摘要事实一致性的方法，在各种语言模型上实现了一致的事实性提升。

arXiv:2605.26840v1 Announce Type: new 摘要：将评估指标作为奖励的强化学习被广泛用于增强语言模型的特定能力。然而，对于诸如事实一致性摘要等任务，现有指标仍不成熟，限制了它们作为塑造模型行为的信号的有效性。虽然单个事实性指标不可靠，但它们的组合可以更有效地捕捉多样化的事实错误。我们利用这一见解，引入了一个自动训练流程，通过聚合不同弱指标的分数来提高摘要的事实一致性。我们的方法通过将分数映射到偏好并过滤掉指标间高度不一致的情况，避免了复杂的奖励塑造。对于每个源文档，我们通过改变解码策略生成词汇相似的摘要对，使模型能够学习由细微词汇差异引起的事实差异。这种方法仅使用源文档就构建了一个高质量的偏好数据集。实验表明，从早期的编码器-解码器架构到现代大型语言模型，各模型均获得一致的事实性提升，较小的模型也能达到与较大模型相当的事实性。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:11

# 通过多不完美指标的偏好学习优化摘要的事实一致性
来源: https://arxiv.org/abs/2605.26840
查看PDF (https://arxiv.org/pdf/2605.26840)

> 摘要:使用评估指标作为奖励的强化学习被广泛用于增强语言模型的特定能力。然而，在事实一致性摘要等任务中，现有指标仍不成熟，限制了它们作为信号来塑造模型行为的效果。尽管单个事实性指标不可靠，但它们的组合能更有效地捕捉多样化的事实错误。我们利用这一见解，引入了一个自动化训练流程，通过聚合不同弱指标的分数来提高摘要的事实一致性。我们的方法避免了复杂的奖励塑造需求，而是将分数映射到偏好，并过滤掉指标间高度不一致的情况。对于每个源文档，我们通过改变解码策略生成词汇相似的摘要对，使模型能够从细微词汇差异所导致的事实差异中学习。这种方法仅使用源文档即可构建高质量的偏好数据集。实验表明，在从早期编码器-解码器架构到现代大型语言模型的各类模型中，事实性持续提升，较小的模型能达到与较大模型相当的事实性。

## 投稿历史

来自: Yuxuan Ye [查看邮件 (https://arxiv.org/show-email/5733012b/2605.26840)] **\[v1\]** 2026年5月26日 星期二 10:55:03 UTC (21,531 KB)

通过偏好学习从多个不完美指标优化摘要的事实一致性

相似文章

通过人类反馈学习总结

通过一致性驱动的强化学习提升跨语言事实召回

从无查询摘要数据集生成查询聚焦摘要数据集

多视频摘要中多模态大语言模型位置偏差的系统性评估

使用语法与语义上下文评估汇总(SSAS)的情感预测一致性分析

提交意见反馈