Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics

arXiv cs.CL 05/27/26, 04:00 AM Papers

Summary

This paper introduces a method to improve factual consistency in text summarization by aggregating scores from multiple weak metrics via preference learning, achieving consistent factuality gains across various language models.

arXiv:2605.26840v1 Announce Type: new Abstract: Reinforcement learning with evaluation metrics as rewards is widely used to enhance specific capabilities of language models. However, for tasks such as factually consistent summarisation, existing metrics remain underdeveloped, limiting their effectiveness as signals for shaping model behaviour.While individual factuality metrics are unreliable, their combination can more effectively capture diverse factual errors. We leverage this insight to introduce an automated training pipeline that improves factual consistency in summaries by aggregating scores from different weak metrics. Our approach avoids the need for complex reward shaping by mapping scores to preferences and filtering out cases with high disagreement between metrics. For each source document, we generate lexically similar summary pairs by varying decoding strategies, enabling the model to learn from factual differences caused by subtle lexical differences. This approach constructs a high-quality preference dataset using only source documents.Experiments demonstrate consistent factuality gains across models, ranging from early encoder-decoder architectures to modern large language models, with smaller models reaching comparable factuality to larger ones.

Original Article

View Cached Full Text

Cached at: 05/27/26, 09:11 AM

# Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics
Source: [https://arxiv.org/abs/2605.26840](https://arxiv.org/abs/2605.26840)
[View PDF](https://arxiv.org/pdf/2605.26840)

> Abstract:Reinforcement learning with evaluation metrics as rewards is widely used to enhance specific capabilities of language models\. However, for tasks such as factually consistent summarisation, existing metrics remain underdeveloped, limiting their effectiveness as signals for shaping model[this http URL](http://behaviour.while/)individual factuality metrics are unreliable, their combination can more effectively capture diverse factual errors\. We leverage this insight to introduce an automated training pipeline that improves factual consistency in summaries by aggregating scores from different weak metrics\. Our approach avoids the need for complex reward shaping by mapping scores to preferences and filtering out cases with high disagreement between metrics\. For each source document, we generate lexically similar summary pairs by varying decoding strategies, enabling the model to learn from factual differences caused by subtle lexical differences\. This approach constructs a high\-quality preference dataset using only source[this http URL](http://documents.experiments/)demonstrate consistent factuality gains across models, ranging from early encoder\-decoder architectures to modern large language models, with smaller models reaching comparable factuality to larger ones\.

## Submission history

From: Yuxuan Ye \[[view email](https://arxiv.org/show-email/5733012b/2605.26840)\] **\[v1\]**Tue, 26 May 2026 10:55:03 UTC \(21,531 KB\)

Optimising Factual Consistency in Summarisation via Preference Learning from Multiple Imperfect Metrics

Similar Articles

Learning to summarize with human feedback

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)

Submit Feedback

Similar Articles

Learning to summarize with human feedback

Improving Cross-Lingual Factual Recall via Consistency-Driven Reinforcement Learning

Generating Query-Focused Summarization Datasets from Query-Free Summarization Datasets

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Consistency Analysis of Sentiment Predictions using Syntactic & Semantic Context Assessment Summarization (SSAS)