通过偏好对齐优化增强多语言反事实生成

arXiv cs.CL 2026/05/13 04:00 论文

摘要

本文介绍了 Macro，一种使用 DPO 进行偏好对齐的框架，旨在提高跨多种语言自我生成反事实解释的有效性和最小性。

arXiv:2605.11632v1 公告类型：新论文摘要：自我生成反事实解释（SCEs）是由大型语言模型（LLMs）生成的经过最小修改的输入（最小性），用于反转模型自身的预测（有效性），从而提供一种基于因果的方法来解析黑盒 LLM 的行为。然而，将 SCEs 扩展到英语之外仍然具有挑战性：现有方法难以在非主导语言中产生有效的 SCEs，且有效性与最小性之间持续的权衡损害了解释质量。我们引入了 Macro，这是一种偏好对齐框架，将直接偏好优化（DPO）应用于多语言 SCEs 生成，使用复合评分函数构建偏好对，有效地将权衡转化为可测量的偏好信号。在四种 LLM 和七种类型学上多样化的语言上的实验表明，与思维链基线相比，Macro 在不降低最小性的情况下，平均将有效性提高了 12.55%，同时避免了基于翻译的基线中严重的最小性违规。与监督微调相比，Macro 在这两个指标上均取得了更优的性能，证实了显式偏好优化对于平衡这一权衡至关重要。进一步的分析表明，Macro 增加了跨语言扰动对齐并缓解了常见的生成错误。我们的结果强调了偏好优化作为增强多语言模型解释的一个有前景的方向。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 06:16

# 通过偏好对齐优化增强多语言反事实生成
来源: https://arxiv.org/abs/2605.11632
查看 PDF (https://arxiv.org/pdf/2605.11632)

> 摘要: 自生成反事实解释 (SCEs) 是由大型语言模型 (LLMs) 生成的对输入进行最小修改（最小性）以翻转其自身预测（有效性）的解释，为揭示黑盒 LLM 行为提供了一种因果基础的方法。然而，将其扩展到英语以外的语言仍然充满挑战：现有方法难以在非主导语言中生成有效的 SCEs，且有效性与最小性之间持续的权衡损害了解释质量。我们提出了 Macro，一种偏好对齐框架，将直接偏好优化 (DPO) 应用于多语言 SCE 生成，使用复合评分函数构建偏好对，从而有效将这种权衡转化为可测量的偏好信号。在四种 LLM 和七种类型学上多样的语言上的实验表明，与思维链基线相比，Macro 在平均有效性上提升了 12.55%，且未降低最小性，同时避免了基于翻译的基线中严重的最小性违规。与监督微调相比，Macro 在这两个指标上都取得了更优的性能，证实了明确的偏好优化对于平衡这种权衡至关重要。进一步的分析显示，Macro 增加了跨语言扰动对齐并缓解了常见的生成错误。我们的结果强调了偏好优化作为提升多语言模型解释的有前景的方向。

## 提交历史

来自: Yilong Wang [查看邮件 (https://arxiv.org/show-email/34bf1a69/2605.11632)] **[v1]** 2026年5月12日 星期二 06:56:18 UTC (9,700 KB)

通过偏好对齐优化增强多语言反事实生成

相似文章

StoicLLM：小语言模型中基于哲学对齐的偏好优化

置信度感知对齐让推理型大语言模型更加可靠

所有语言都重要：理解并缓解多语言 RAG 中的语言偏见

面向多语言推理的跨语言在线策略自蒸馏

偏好优化中的虚假相关性学习：机制、后果及通过平局训练的缓解方法

提交意见反馈