通过偏好学习从多个不完美指标优化摘要的事实一致性

arXiv cs.CL 论文

摘要

本文介绍了一种通过偏好学习聚合多个弱指标的分数来提高文本摘要事实一致性的方法,在各种语言模型上实现了一致的事实性提升。

arXiv:2605.26840v1 Announce Type: new 摘要:将评估指标作为奖励的强化学习被广泛用于增强语言模型的特定能力。然而,对于诸如事实一致性摘要等任务,现有指标仍不成熟,限制了它们作为塑造模型行为的信号的有效性。虽然单个事实性指标不可靠,但它们的组合可以更有效地捕捉多样化的事实错误。我们利用这一见解,引入了一个自动训练流程,通过聚合不同弱指标的分数来提高摘要的事实一致性。我们的方法通过将分数映射到偏好并过滤掉指标间高度不一致的情况,避免了复杂的奖励塑造。对于每个源文档,我们通过改变解码策略生成词汇相似的摘要对,使模型能够学习由细微词汇差异引起的事实差异。这种方法仅使用源文档就构建了一个高质量的偏好数据集。实验表明,从早期的编码器-解码器架构到现代大型语言模型,各模型均获得一致的事实性提升,较小的模型也能达到与较大模型相当的事实性。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:11

# 通过多不完美指标的偏好学习优化摘要的事实一致性
来源: https://arxiv.org/abs/2605.26840
查看PDF (https://arxiv.org/pdf/2605.26840)

> 摘要:使用评估指标作为奖励的强化学习被广泛用于增强语言模型的特定能力。然而,在事实一致性摘要等任务中,现有指标仍不成熟,限制了它们作为信号来塑造模型行为的效果。尽管单个事实性指标不可靠,但它们的组合能更有效地捕捉多样化的事实错误。我们利用这一见解,引入了一个自动化训练流程,通过聚合不同弱指标的分数来提高摘要的事实一致性。我们的方法避免了复杂的奖励塑造需求,而是将分数映射到偏好,并过滤掉指标间高度不一致的情况。对于每个源文档,我们通过改变解码策略生成词汇相似的摘要对,使模型能够从细微词汇差异所导致的事实差异中学习。这种方法仅使用源文档即可构建高质量的偏好数据集。实验表明,在从早期编码器-解码器架构到现代大型语言模型的各类模型中,事实性持续提升,较小的模型能达到与较大模型相当的事实性。

## 投稿历史

来自: Yuxuan Ye [查看邮件 (https://arxiv.org/show-email/5733012b/2605.26840)] **\[v1\]** 2026年5月26日 星期二 10:55:03 UTC (21,531 KB)

相似文章

通过人类反馈学习总结

OpenAI Blog

OpenAI展示了一种通过在人类偏好上训练奖励模型并使用强化学习微调模型来改进语言模型总结的技术,实现了在数据集间具有良好泛化性能的显著质量提升。这项工作通过大规模人类反馈推进了模型对齐,并具有超越总结任务的应用前景。

从无查询摘要数据集生成查询聚焦摘要数据集

arXiv cs.CL

本文提出了一种基于证据的模型,可从无查询摘要数据集中自动生成查询关键词,从而创建查询聚焦摘要数据集。实验结果表明,使用基于证据的查询生成的摘要与原始查询生成的摘要相比,获得了具有竞争力的ROUGE分数。

多视频摘要中多模态大语言模型位置偏差的系统性评估

arXiv cs.CL

吉林大学研究人员对多模态大语言模型(MLLMs)在多视频摘要任务中的位置偏差进行了系统性评估,基于 ActivityNet 和新闻视频构建了评测基准,并采用覆盖率、方向性位置偏差(DPB)和中间-边缘差距(MEG)等指标对九个模型进行了全面评估。结果表明,位置效应因领域和模型而异,且增加视觉输入或生成预算并不能统一消除这种不平衡现象。