将漂移转化为约束:非平稳环境下的鲁棒推理对齐
摘要
本文引入了 CXR-MAX,这是一个大规模基准,旨在利用来自多个多模态大语言模型(MLLM)的 X 射线数据,评估非平稳环境下的推理对齐性能。
查看缓存全文
缓存时间: 2026/05/08 07:46
论文页面 - 将漂移转化为约束:非平稳环境中的鲁棒推理对齐
来源: https://huggingface.co/papers/2510.04142
为了评估非平稳环境中的推理对齐,一个表现出高方差模型间漂移的数据集至关重要。现有的基准测试通常依赖单一来源的标注或静态共识,未能捕捉多流推理中固有的动态冲突。
为解决这一空白,我们引入了 CXR-MAX(多源 X 射线对齐),这是一个旨在促进自主偏好优化研究的大规模基准测试。CXR-MAX 扩展了 MIMIC-CXR 数据集,聚合了来自七种不同、公开可用的多模态大语言模型(MLLMs)的推理轨迹。CXR-MAX 提供了 170,982 个涵盖 14 种胸部病理的推理轨迹蒸馏实例。
相似文章
通过宽基线匹配激发MLLMs中的复杂空间推理
本文介绍了ReasonMatch-Bench,一个用于多模态大语言模型中宽基线匹配的基准,并提出了动态对应强化学习(DCRL)以提升空间推理能力。实验表明,该方法在基准测试上取得了显著提升,同时保持了通用性能。
残余漂移主导多轮约束推理中的矛盾
本文介绍了可满足漂移(satisfiable drift),这是一种多轮推理系统在保持内部逻辑一致性的同时,默默违反先前承诺的故障模式,并主导了矛盾。作者提出了DRIFT-Bench,一个包含816个问题的基准测试,并发现经过修复后,98-100%的残余错误是漂移错误。
置信度感知对齐让推理型大语言模型更加可靠
本文介绍了CASPO框架,该框架通过迭代直接偏好优化(DPO),将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考(CaT),用于在推理过程中动态剪枝不确定的推理分支,以提高可靠性和效率。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
GENSTRAT:迈向大型语言模型战略推理科学
本文介绍了GENSTRAT,一个利用程序生成的战略环境来评估LLMs在多维度上的战略推理能力的基准,解决了固定游戏套件的局限性。