将漂移转化为约束：非平稳环境下的鲁棒推理对齐

Hugging Face Daily Papers 2026/05/02 00:00 论文

摘要

本文引入了 CXR-MAX，这是一个大规模基准，旨在利用来自多个多模态大语言模型（MLLM）的 X 射线数据，评估非平稳环境下的推理对齐性能。

本文揭示了多模态大语言模型（MLLM）推理对齐领域一个关键但尚未充分探索的挑战：在非平稳环境中，源模型多样化的推理分布往往会发生不可预测的演变，从而向目标模型传递系统性偏差和漂移。为了解决这一问题，我们将多源推理对齐公式化为概念漂移理论下的约束满足问题。我们提出了自主偏好优化（APO），这是一个新颖的框架，它将模型间的差异视为动态的负向约束，而非噪声。APO 通过两阶段协议运行：首先，监督自举将目标模型投影到源模型的能力并集中；其次，感知约束的优化通过多负 Plackett-Luce 目标明确抑制漂移轨迹，从而合成一致的共识流形。在胸部 X 射线解读上的大量实验表明，我们的 7B 模型实现了卓越的鲁棒性，其平均准确率甚至超过了专有源模型。此外，我们发布了 CXR-MAX，这是一个包含来自七个大规模 MLLM 的 170,982 条推理轨迹的大规模基准，以促进关于漂移下推理对齐的研究。代码和数据可在以下地址获取：https://github.com/XiaoyuYoung/APO。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:46

论文页面 - 将漂移转化为约束：非平稳环境中的鲁棒推理对齐

来源: https://huggingface.co/papers/2510.04142

为了评估非平稳环境中的推理对齐，一个表现出高方差模型间漂移的数据集至关重要。现有的基准测试通常依赖单一来源的标注或静态共识，未能捕捉多流推理中固有的动态冲突。

为解决这一空白，我们引入了 CXR-MAX（多源 X 射线对齐），这是一个旨在促进自主偏好优化研究的大规模基准测试。CXR-MAX 扩展了 MIMIC-CXR 数据集，聚合了来自七种不同、公开可用的多模态大语言模型（MLLMs）的推理轨迹。CXR-MAX 提供了 170,982 个涵盖 14 种胸部病理的推理轨迹蒸馏实例。

将漂移转化为约束：非平稳环境下的鲁棒推理对齐

论文页面 - 将漂移转化为约束：非平稳环境中的鲁棒推理对齐

相似文章

通过宽基线匹配激发MLLMs中的复杂空间推理

残余漂移主导多轮约束推理中的矛盾

置信度感知对齐让推理型大语言模型更加可靠

长上下文LLM中的位置失败：推理基准测试的盲点

GENSTRAT：迈向大型语言模型战略推理科学

提交意见反馈