DyCo-RL: 动态跨模态协调用于视觉推理

Hugging Face Daily Papers 论文

摘要

本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。

具有可验证奖励的强化学习(RLVR)已成为增强多模态大语言模型(MLLMs)视觉推理的主流范式。然而,现有的RLVR方法主要优化推理结果,从根本上忽略了生成过程中所需的细粒度跨模态协调。通过令牌级别的分析和受控干预,我们揭示了在思维链(CoT)推理过程中,MLLMs常常无法动态地在提取视觉证据和综合文本上下文之间切换——这是一种与推理失败有因果关系的协调崩溃。受这些发现的启发,我们提出了DyCo-RL,它将动态跨模态协调集成到RLVR优化中。具体来说,DyCo-RL使用Fisher-Rao测地距离来测量模态内的注意力转移,将令牌分配到面向视觉或面向文本的功能角色。然后,它评估令牌的实际注意力分配与其分配角色之间的一致性,利用此分数在策略优化期间进行对齐引导的优势重加权。大量实验表明,与算法无关的DyCo-RL应用于Qwen2.5-VL-3B/7B时,在涵盖视觉中心和数学推理的七个基准测试上,持续改进了四种代表性RLVR算法。
查看原文
查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - DyCo-RL: 用于视觉推理的动态跨模态协调

来源:https://huggingface.co/papers/2606.08035

为什么即使在 RLVR 训练之后,视觉推理失败仍然存在?

我们发现,推理失败通常与这一协调过程中的崩溃有关。问题往往并非单纯的视觉感知错误或文本推理错误,而是动态跨模态协调的失败。在思维链生成过程中,成功的推理要求模型持续在查看视觉证据与思考已建立的文本语境之间切换。现有的 RLVR 方法优化最终结果,但很大程度上忽略了这种基于 token 级别的行为。

通过 token 级别的分析和因果干预,我们表明,当面向视觉的 token 停止关注相关图像内容,或面向文本的 token 无法保持扎根于先前的推理历史时,推理失败频繁发生。

为解决这一问题,我们引入了 DyCo-RL,一个即插即用的 RLVR 框架,它明确奖励有效的跨模态协调。DyCo-RL 使用 Fisher-Rao 注意力动力学来识别 token 的功能角色,并根据角色-注意力对齐重新加权策略优化。由此产生的模型在多种视觉和数学推理基准上表现出显著更强的推理性能。

相似文章

DyCon: 通过演化难度建模的动态推理控制

arXiv cs.AI

本文介绍了DyCon,一种无需训练的框架,利用步骤级嵌入来建模演化的任务难度,并动态控制大型推理模型(LRMs)的推理深度,有效减少过度思考,在不牺牲准确性的情况下提高效率。