标签
本文介绍了视觉具象化推理,一种使视觉语言模型能够将自然语言推理与使用点或框的明确视觉证据基础相结合的方法。一个可扩展的合成流水线和基础感知的强化学习提高了推理准确性,使得一个4B模型在空间和计数基准上能够匹配甚至超越一个27B模型。
Visual Para-Thinker++提出了一种用于视觉推理的单策略多智能体框架,该框架使用角色条件化智能体(主智能体、工作智能体、汇总智能体)和专用训练方法,以减少幻觉并提高效率,在幻觉敏感基准测试上优于基线。
本文指出,视觉推理中的失败往往源于思维链生成过程中视觉与文本证据之间的动态跨模态协调崩溃。它介绍了DyCo-RL,一个强化学习框架,通过奖励有效的跨模态协调来提升推理性能。
介绍了高效算子搜索(EOS),这是一个统一的可微分框架,将令牌缩减方法(剪枝、合并、池化、自适应重加权)泛化到共享算子空间,在预算约束下自动搜索最优算子组合。该方法在多个基准上取得有竞争力的结果,并揭示了一致的算子模式。
VAMPS 是一个包含 1,168 道多模态双语数学题的新基准,旨在评估 LLM 能否通过构建图形/可视化并对其进行推理来提升解题能力。核心发现:即便在绘图本是自然解题策略的问题上,直接分析求解的表现也出人意料地优于借助工具进行可视化求解。
TRON 提出了一种可扩展的在线环境,用于视觉推理强化学习,可生成无限多样且答案可验证的训练实例,在多个多模态基准上展现出持续的性能提升。
视觉思考-视觉-语言-行动策略(VisualThink-VLA)引入了一种用于视觉-语言-行动策略的视觉中间推理框架,该框架保留了空间精度,并相比基于文本的推理显著降低了延迟,在机器人操作基准测试中实现了亚秒级推理和领先的成功率。
本文提出MARS,一种单锚多源推理框架,利用动态锚定量化信息增益,并在基于可验证奖励的强化学习过程中调节模态交互,在GRPO和DAPO上分别实现了3.2%和4.9%的性能提升,涵盖多个数据集。
ETCHR是一种新颖的图像编辑方法,它将视觉推理与图像生成解耦,采用两阶段训练过程(推理模仿和推理增强)来提升多模态语言模型在五个视觉推理任务上的性能。在Qwen3-VL-8B、Gemini-3.1-Flash-Lite和Kimi K2.5等模型上,Pass@1持续提升4-5%。
ATLAS提出了一种视觉推理框架,该框架通过功能标记将智能体操作和隐式表示相结合,实现了通过下一个标记预测和强化学习进行高效训练,同时避免了中间图像的生成。
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。
研究表明,由于捷径学习和仅凭文本臆造视觉细节,思维链提示会损害多模态大模型在视觉空间推理方面的表现。
AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
MIT研究人员开发了VLMFP,这是一种结合视觉语言模型与形式化规划软件的两阶段生成式AI方法,在机器人导航等复杂视觉规划任务中达到了70%的成功率,比现有基线方法高出近2.3倍。该方法能自动将视觉场景转化为传统求解器可处理的规划文件,从而在新环境中实现高效的长期规划。
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。