multimodal-reasoning

#multimodal-reasoning

MathVis-Fine：通过渐进式依赖引导训练对齐视觉监督与必要性，实现多模态数学推理

arXiv cs.AI ↗ · 2026-06-17 缓存

本文介绍了MathVis-Fine，一个用于多模态数学推理中细粒度视觉依赖建模的框架，同时包含一个新数据集和一个两阶段渐进式训练范式，该范式根据每个样本固有的视觉依赖水平平衡答案正确性奖励和视觉接地奖励。

0 人收藏 0 人点赞

#multimodal-reasoning

FinAcumen：基于自演化经验记忆框架的金融多模态推理

arXiv cs.AI ↗ · 2026-06-17 缓存

FinAcumen是一个框架，它将先前轨迹中的推理经验累积到持久记忆库中，用于金融多模态推理，在四个基准测试上提升了性能，同时保持冻结的8B视觉语言模型不变。

0 人收藏 0 人点赞

#multimodal-reasoning

VeriGeo：具有数值与分析验证的可控几何问题生成

arXiv cs.AI ↗ · 2026-06-15 缓存

VeriGeo提出了一种可控几何问题生成框架，利用验证引导的反思确保数值与分析一致性。该方法生成高质量合成数据，在GeoQA上取得最先进结果，并在PGPS9K和MathVista-GPS上表现强劲。

0 人收藏 0 人点赞

#multimodal-reasoning

通过最差维度优化改进多模态推理

arXiv cs.AI ↗ · 2026-06-09 缓存

本文提出了多模态多维度标量化过程奖励建模（MMS-PRM），该方法在多模态推理中强制最差维度的鲁棒性，以防止视觉幻觉等失败被强大的文本逻辑掩盖。

0 人收藏 0 人点赞

#multimodal-reasoning

用于轻量级多模态推理的光谱渐进式思路流

arXiv cs.LG ↗ · 2026-06-03 缓存

提出SpecFlow，一种轻量级多模态空间推理框架，在固定大小的离散余弦空间中表示中间视觉思维，将计算和KV缓存成本降低多达2.1倍，同时保持有竞争力的性能。

0 人收藏 0 人点赞

#multimodal-reasoning

LoMo: 局部模态替换以实现更深层的视觉-语言融合

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

LoMo 提出了一种数据整理方法，将单模态提示重新表述为交错的多模态序列，以改善视觉-语言模型中的跨模态表示对齐，在多个基准测试上取得了持续的性能提升。

0 人收藏 0 人点赞

#multimodal-reasoning

Faithful-MR1: 通过锚定与强化视觉注意实现可信的多模态推理

arXiv cs.CL ↗ · 2026-05-22 缓存

Faithful-MR1 是一个训练框架，通过 <Focus> 令牌锚定视觉注意，并利用反事实图像干预强化可信使用，从而提升多模态大语言模型（MLLM）中可信的多模态推理能力。它在使用更少训练数据的情况下，在 Qwen2.5-VL 骨干网络上的表现优于基线模型。

0 人收藏 0 人点赞

#multimodal-reasoning

视觉的代价：在单一范式中实现可信的多模态推理

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

本文挑战了当前视觉语言模型忠实地融合多模态数据的假设，提出了一种基于信息论的 Modality Translation Protocol，并引入了新指标（Toll、Curse、Fallacy of Seeing）来评估可信度，而非传统的多模态增益。

0 人收藏 0 人点赞

#multimodal-reasoning

墙上的镜子：VLM 智能体究竟能否认识自己？

arXiv cs.AI ↗ · 2026-05-12 缓存

本研究引入了一个 3D 基准，用于评估视觉语言模型（VLM）智能体是否能够实现镜子自我识别，这是高阶认知能力的一种替代指标。研究发现，虽然更强的 VLM 可以利用反射证据指导行动，但较弱的模型往往无法提取与自身相关的信息或错误归因反射影像，这突显了语言顺从与基于现实的自我识别之间的区别。

0 人收藏 0 人点赞

#multimodal-reasoning

UniPath: 统一多模态推理中理解与生成的适应性协调

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

UniPath 提出了一种框架，用于统一多模态模型中理解与生成的适应性协调，利用协调路径多样性来提升相对于固定策略的性能。

0 人收藏 0 人点赞

#multimodal-reasoning

优中选优：超越答案正确性奖励，激励可靠的多模态推理

arXiv cs.CL ↗ · 2026-04-22 缓存

研究者提出 Groupwise Ranking Reward，解决多模态强化学习中的“推理-答案不一致”问题，将可靠性条件下的准确率从 47.4% 提升至 54.7%，超越标准 RLVR。

0 人收藏 0 人点赞

#multimodal-reasoning

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了CrossMath，一个受控多模态推理基准，揭示了当前视觉语言模型的一个关键局限：它们主要在文本空间进行推理，而非真正的视觉接地推理，视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

0 人收藏 0 人点赞

#multimodal-reasoning

更多推理，更低准确性？论视觉语言模型中推理的双重性

Papers with Code Trending ↗ · 2025-09-30 缓存

本文揭示，视觉语言模型中的长时间推理可能会损害感知基础，导致对基本视觉问题的识别失败。它提出视觉锚定策略优化（VAPO），将推理引导至视觉基础轨迹，并通过VAPO-Thinker-7B模型实现了最先进的性能。

0 人收藏 0 人点赞

multimodal-reasoning

提交意见反馈