DyCo-RL: 动态跨模态协调用于视觉推理
摘要
本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - DyCo-RL: 用于视觉推理的动态跨模态协调
来源:https://huggingface.co/papers/2606.08035
为什么即使在 RLVR 训练之后,视觉推理失败仍然存在?
我们发现,推理失败通常与这一协调过程中的崩溃有关。问题往往并非单纯的视觉感知错误或文本推理错误,而是动态跨模态协调的失败。在思维链生成过程中,成功的推理要求模型持续在查看视觉证据与思考已建立的文本语境之间切换。现有的 RLVR 方法优化最终结果,但很大程度上忽略了这种基于 token 级别的行为。
通过 token 级别的分析和因果干预,我们表明,当面向视觉的 token 停止关注相关图像内容,或面向文本的 token 无法保持扎根于先前的推理历史时,推理失败频繁发生。
为解决这一问题,我们引入了 DyCo-RL,一个即插即用的 RLVR 框架,它明确奖励有效的跨模态协调。DyCo-RL 使用 Fisher-Rao 注意力动力学来识别 token 的功能角色,并根据角色-注意力对齐重新加权策略优化。由此产生的模型在多种视觉和数学推理基准上表现出显著更强的推理性能。
相似文章
DyCon: 通过演化难度建模的动态推理控制
本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。
CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
CollabVR:基于视觉语言模型与视频生成模型的协作式视频推理
CollabVR 是一篇研究论文,提出了一种闭环框架,该框架通过协作整合视觉语言模型与视频生成模型,以改善视觉推理并实时纠正推理失败。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
通过工具监督强化学习实现视觉推理
提出 ToolsRL,一个两阶段强化学习框架,教多模态大模型使用简单视觉工具完成复杂视觉推理任务。