DyCo-RL: 动态跨模态协调用于视觉推理

Hugging Face Daily Papers 2026/06/06 00:00 论文

摘要

本文指出，视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL，一个强化学习框架，通过奖励有效的跨模态协调来提升推理性能。

具有可验证奖励的强化学习（RLVR）已成为增强多模态大语言模型（MLLMs）视觉推理的主流范式。然而，现有的RLVR方法主要优化推理结果，从根本上忽略了生成过程中所需的细粒度跨模态协调。通过令牌级别的分析和受控干预，我们揭示了在思维链（CoT）推理过程中，MLLMs常常无法动态地在提取视觉证据和综合文本上下文之间切换——这是一种与推理失败有因果关系的协调崩溃。受这些发现的启发，我们提出了DyCo-RL，它将动态跨模态协调集成到RLVR优化中。具体来说，DyCo-RL使用Fisher-Rao测地距离来测量模态内的注意力转移，将令牌分配到面向视觉或面向文本的功能角色。然后，它评估令牌的实际注意力分配与其分配角色之间的一致性，利用此分数在策略优化期间进行对齐引导的优势重加权。大量实验表明，与算法无关的DyCo-RL应用于Qwen2.5-VL-3B/7B时，在涵盖视觉中心和数学推理的七个基准测试上，持续改进了四种代表性RLVR算法。

查看原文

查看缓存全文

缓存时间: 2026/06/12 02:52

论文页面 - DyCo-RL: 用于视觉推理的动态跨模态协调

来源：https://huggingface.co/papers/2606.08035

为什么即使在 RLVR 训练之后，视觉推理失败仍然存在？

我们发现，推理失败通常与这一协调过程中的崩溃有关。问题往往并非单纯的视觉感知错误或文本推理错误，而是动态跨模态协调的失败。在思维链生成过程中，成功的推理要求模型持续在查看视觉证据与思考已建立的文本语境之间切换。现有的 RLVR 方法优化最终结果，但很大程度上忽略了这种基于 token 级别的行为。

通过 token 级别的分析和因果干预，我们表明，当面向视觉的 token 停止关注相关图像内容，或面向文本的 token 无法保持扎根于先前的推理历史时，推理失败频繁发生。

为解决这一问题，我们引入了 DyCo-RL，一个即插即用的 RLVR 框架，它明确奖励有效的跨模态协调。DyCo-RL 使用 Fisher-Rao 注意力动力学来识别 token 的功能角色，并根据角色-注意力对齐重新加权策略优化。由此产生的模型在多种视觉和数学推理基准上表现出显著更强的推理性能。

DyCo-RL: 动态跨模态协调用于视觉推理

论文页面 - DyCo-RL: 用于视觉推理的动态跨模态协调

相似文章

DyCon: 通过演化难度建模的动态推理控制

CORA：通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

CollabVR：基于视觉语言模型与视频生成模型的协作式视频推理

看不清还是想不对？面向视觉语言推理的感知奖励

通过工具监督强化学习实现视觉推理

提交意见反馈