通过偏好对齐优化增强多语言反事实生成
摘要
本文介绍了 Macro,一种使用 DPO 进行偏好对齐的框架,旨在提高跨多种语言自我生成反事实解释的有效性和最小性。
arXiv:2605.11632v1 公告类型:新论文
摘要:自我生成反事实解释(SCEs)是由大型语言模型(LLMs)生成的经过最小修改的输入(最小性),用于反转模型自身的预测(有效性),从而提供一种基于因果的方法来解析黑盒 LLM 的行为。然而,将 SCEs 扩展到英语之外仍然具有挑战性:现有方法难以在非主导语言中产生有效的 SCEs,且有效性与最小性之间持续的权衡损害了解释质量。我们引入了 Macro,这是一种偏好对齐框架,将直接偏好优化(DPO)应用于多语言 SCEs 生成,使用复合评分函数构建偏好对,有效地将权衡转化为可测量的偏好信号。在四种 LLM 和七种类型学上多样化的语言上的实验表明,与思维链基线相比,Macro 在不降低最小性的情况下,平均将有效性提高了 12.55%,同时避免了基于翻译的基线中严重的最小性违规。与监督微调相比,Macro 在这两个指标上均取得了更优的性能,证实了显式偏好优化对于平衡这一权衡至关重要。进一步的分析表明,Macro 增加了跨语言扰动对齐并缓解了常见的生成错误。我们的结果强调了偏好优化作为增强多语言模型解释的一个有前景的方向。
查看缓存全文
缓存时间: 2026/05/13 06:16
# 通过偏好对齐优化增强多语言反事实生成 来源: https://arxiv.org/abs/2605.11632 查看 PDF (https://arxiv.org/pdf/2605.11632) > 摘要: 自生成反事实解释 (SCEs) 是由大型语言模型 (LLMs) 生成的对输入进行最小修改(最小性)以翻转其自身预测(有效性)的解释,为揭示黑盒 LLM 行为提供了一种因果基础的方法。然而,将其扩展到英语以外的语言仍然充满挑战:现有方法难以在非主导语言中生成有效的 SCEs,且有效性与最小性之间持续的权衡损害了解释质量。我们提出了 Macro,一种偏好对齐框架,将直接偏好优化 (DPO) 应用于多语言 SCE 生成,使用复合评分函数构建偏好对,从而有效将这种权衡转化为可测量的偏好信号。在四种 LLM 和七种类型学上多样的语言上的实验表明,与思维链基线相比,Macro 在平均有效性上提升了 12.55%,且未降低最小性,同时避免了基于翻译的基线中严重的最小性违规。与监督微调相比,Macro 在这两个指标上都取得了更优的性能,证实了明确的偏好优化对于平衡这种权衡至关重要。进一步的分析显示,Macro 增加了跨语言扰动对齐并缓解了常见的生成错误。我们的结果强调了偏好优化作为提升多语言模型解释的有前景的方向。 ## 提交历史 来自: Yilong Wang [查看邮件 (https://arxiv.org/show-email/34bf1a69/2605.11632)] **[v1]** 2026年5月12日 星期二 06:56:18 UTC (9,700 KB)
相似文章
StoicLLM:小语言模型中基于哲学对齐的偏好优化
本研究探讨了在Llama-3.2-3B和Qwen-3-4B等小型语言模型上使用偏好优化方法(ORPO、AlphaPO),通过微小数据集使其与斯多葛哲学对齐。研究发现,尽管300个样本可以有效编码斯多葛美德,但小型模型在处理外向型的宇宙公民义务时仍面临困难。
置信度感知对齐让推理型大语言模型更加可靠
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
所有语言都重要:理解并缓解多语言 RAG 中的语言偏见
研究者发现多语言 RAG 重排器存在系统性英语与查询语言偏见,提出 LAURA——一种面向效用的对齐方法,通过跨语言检索答案关键文档显著提升性能。
面向多语言推理的跨语言在线策略自蒸馏
本文提出了跨语言在线策略自蒸馏(COPSD)方法,该方法通过共享的学生-教师架构,将高资源语言的推理能力迁移到低资源语言中。在17种非洲语言上的实验表明,该方法的数学推理能力和答案格式遵循度均得到显著提升,性能优于组相对策略优化(GRPO)。
偏好优化中的虚假相关性学习:机制、后果及通过平局训练的缓解方法
本文分析了诸如直接偏好优化(DPO)等偏好优化方法中的虚假相关性学习,确定了平均虚假偏差和因果-虚假泄漏等机制。本文提出了使用效用相等的偏好对进行“平局训练”作为一种缓解策略,以减少对虚假特征的依赖,同时不降低因果学习效果。