visual-reasoning

#visual-reasoning

视觉具象化推理

Hugging Face Daily Papers ↗ · 2026-06-15 缓存

本文介绍了视觉具象化推理，一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性，使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。

0 人收藏 0 人点赞

#visual-reasoning

Visual Para-Thinker++: 视觉推理的单策略多智能体框架

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架，该框架使用角色条件化智能体（主智能体、工作智能体、汇总智能体）和专用训练方法，以减少幻觉并提高效率，在幻觉敏感基准测试上优于基线。

0 人收藏 0 人点赞

#visual-reasoning

DyCo-RL: 动态跨模态协调用于视觉推理

Hugging Face Daily Papers ↗ · 2026-06-06 缓存

本文指出，视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL，一个强化学习框架，通过奖励有效的跨模态协调来提升推理性能。

0 人收藏 0 人点赞

#visual-reasoning

可微分高效算子搜索

arXiv cs.LG ↗ · 2026-06-05 缓存

介绍了高效算子搜索（EOS），这是一个统一的可微分框架，将令牌缩减方法（剪枝、合并、池化、自适应重加权）泛化到共享算子空间，在预算约束下自动搜索最优算子组合。该方法在多个基准上取得有竞争力的结果，并揭示了一致的算子模式。

0 人收藏 0 人点赞

#visual-reasoning

VAMPS：视觉辅助数学问题求解基准

arXiv cs.AI ↗ · 2026-06-04 缓存

VAMPS 是一个包含 1,168 道多模态双语数学题的新基准，旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现：即便在绘图本是自然解题策略的问题上，直接分析求解的表现也出人意料地优于借助工具进行可视化求解。

0 人收藏 0 人点赞

#visual-reasoning

TRON：面向视觉推理强化学习的目标化规则可验证在线环境

Hugging Face Daily Papers ↗ · 2026-06-01 缓存

TRON 提出了一种可扩展的在线环境，用于视觉推理强化学习，可生成无限多样且答案可验证的训练实例，在多个多模态基准上展现出持续的性能提升。

0 人收藏 0 人点赞

#visual-reasoning

视觉思考-视觉-语言-行动策略：视觉中间推理实现高效低延迟

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

视觉思考-视觉-语言-行动策略（VisualThink-VLA）引入了一种用于视觉-语言-行动策略的视觉中间推理框架，该框架保留了空间精度，并相比基于文本的推理显著降低了延迟，在机器人操作基准测试中实现了亚秒级推理和领先的成功率。

0 人收藏 0 人点赞

#visual-reasoning

看得越多就知道得越多？面向多源视觉推理的单锚优势归一化

Hugging Face Daily Papers ↗ · 2026-05-25 缓存

本文提出MARS，一种单锚多源推理框架，利用动态锚定量化信息增益，并在基于可验证奖励的强化学习过程中调节模态交互，在GRPO和DAPO上分别实现了3.2%和4.9%的性能提升，涵盖多个数据集。

0 人收藏 0 人点赞

#visual-reasoning

ETCHR：编辑以澄清和利用推理

Hugging Face Daily Papers ↗ · 2026-05-22 缓存

ETCHR是一种新颖的图像编辑方法，它将视觉推理与图像生成解耦，采用两阶段训练过程（推理模仿和推理增强）来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上，Pass@1持续提升4-5%。

0 人收藏 0 人点赞

#visual-reasoning

ATLAS：智能体还是隐式视觉推理？一个词足矣

Hugging Face Daily Papers ↗ · 2026-05-14 缓存

ATLAS提出了一种视觉推理框架，该框架通过功能标记将智能体操作和隐式表示相结合，实现了通过下一个标记预测和强化学习进行高效训练，同时避免了中间图像的生成。

0 人收藏 0 人点赞

#visual-reasoning

检索、整合与综合：空间-语义接地潜层视觉推理

arXiv cs.CL ↗ · 2026-05-11 缓存

本文介绍了 RIS，这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架，旨在克服信息瓶颈。该框架提出将潜在令牌（tokens）锚定于空间和语义证据之上，在 V* 和 HRBench 等基准测试中展现出性能提升。

0 人收藏 0 人点赞

#visual-reasoning

面向视觉原生多模态深度搜索智能体的同策略数据演化

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

本文介绍了同策略数据演化（ODE）和一种视觉原生智能体框架，以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成，ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现，超越了 Gemini 2.5 Pro。

0 人收藏 0 人点赞

#visual-reasoning

语境之代价：在多模态检索增强生成中缓解文本偏差

arXiv cs.CL ↗ · 2026-05-08 缓存

本文识别并形式化了多模态RAG中的“再污染”现象，即添加准确上下文会导致模型因注意力崩溃（视觉盲区和位置偏差）而放弃正确预测。作者提出BAIR，一种无参数的推理时框架，能恢复视觉显著性并惩罚文本干扰因素，从而在医学、公平性和地理空间基准上提高可靠性。

0 人收藏 0 人点赞

#visual-reasoning

通过工具监督强化学习实现视觉推理

Hugging Face Daily Papers ↗ · 2026-04-21 缓存

提出 ToolsRL，一个两阶段强化学习框架，教多模态大模型使用简单视觉工具完成复杂视觉推理任务。

0 人收藏 0 人点赞

#visual-reasoning

思维链削弱多模态大模型的视觉空间推理能力

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

研究表明，由于捷径学习和仅凭文本臆造视觉细节，思维链提示会损害多模态大模型在视觉空间推理方面的表现。

0 人收藏 0 人点赞

#visual-reasoning

学习自适应推理路径以实现高效视觉推理

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

AVR是一种自适应视觉推理框架，能够动态选择最优推理格式，在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择，从而解决推理路径冗余问题。

0 人收藏 0 人点赞

#visual-reasoning

利用自监督指南提升视觉指令调优

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

本文提出通过将自监督任务表达为自然语言指令，增强多模态语言模型中的视觉指令调优，从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务（如旋转预测、颜色匹配和跨视角对应）重构为图像-指令-响应对，该方法仅需在训练数据中注入3%-10%的视觉化指令，便能在多个基准测试中实现一致的性能提升。

0 人收藏 0 人点赞

#visual-reasoning

规划复杂视觉任务的更优方法

MIT News — Artificial Intelligence ↗ · 2026-03-11 缓存

MIT研究人员开发了VLMFP，这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法，在机器人导航等复杂视觉规划任务中达到了70%的成功率，比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件，从而在新环境中实现高效的长期规划。

0 人收藏 0 人点赞

#visual-reasoning

用图像思考

OpenAI Blog ↗ · 2025-04-16 缓存

OpenAI 发布了 o3 和 o4-mini 模型，这些模型能够在链式思维过程中对图像进行推理，通过裁剪和缩放等原生图像操作工具实现视觉理解，无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。

0 人收藏 0 人点赞

visual-reasoning

提交意见反馈