Perceive-to-Reason:解耦感知与推理实现细粒度视觉推理
摘要
提出Perceive-to-Reason(P2R)框架,通过两阶段流程和角色感知的强化学习策略,将视觉语言模型中的视觉感知与推理解耦,在细粒度视觉推理基准上达到最先进水平。
查看缓存全文
缓存时间: 2026/07/02 03:46
论文页面 - 感知到推理:解耦感知与推理实现细粒度视觉推理
来源:https://huggingface.co/papers/2607.01191 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
本文提出了一种名为 Perceive-to-Reason(P2R)的统一框架,该框架通过两阶段流程将视觉感知与推理在视觉语言模型中分离,从而提升高分辨率图像上的细粒度视觉推理性能。
细粒度视觉推理(https://huggingface.co/papers?q=Fine-grained%20visual%20reasoning)对于视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)而言仍然具有挑战性,尤其是当微小但关键的视觉线索隐藏在高分辨率图像中时。现有方法依赖反复裁剪或测试时的视觉搜索来引入局部证据,但它们通常并未明确区分感知与推理。在本文中,我们提出 Perceive-to-Reason(P2R),这是一个将细粒度视觉推理(https://huggingface.co/papers?q=fine-grained%20visual%20reasoning)形式化为两阶段过程的统一框架:模型首先作为感知器(Perceiver)(https://huggingface.co/papers?q=Perceiver)定位与问题相关的证据,然后作为推理器(Reasoner)(https://huggingface.co/papers?q=Reasoner)基于标注图像和裁剪区域回答问题。为了更好地将训练与此解耦形式对齐,我们进一步引入感知-推理交替GRPO(Perception-Reasoning Alternating GRPO)(https://huggingface.co/papers?q=Perception-Reasoning%20Alternating%20GRPO)(PRA-GRPO),这是一种角色感知的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)策略,该策略在仅使用最终答案监督的情况下,交替进行感知聚焦和推理聚焦的更新。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在多个模型规模上持续提升性能。特别地,P2R-4B 在 V-Star 上达到 93.2%,在 HR-Bench-4K 上达到 81.9%,在 HR-Bench-8K 上达到 80.5%,显著优于其对应的骨干模型。进一步实验表明,P2R 的优势不仅限于高分辨率基准测试,还可扩展到更广泛的多模态推理(https://huggingface.co/papers?q=multimodal%20reasoning)任务。这些结果表明,明确解耦感知与推理为细粒度视觉推理(https://huggingface.co/papers?q=fine-grained%20visual%20reasoning)提供了一种有效的框架。
查看 arXiv 页面(https://arxiv.org/abs/2607.01191)查看 PDF(https://arxiv.org/pdf/2607.01191)GitHub(https://github.com/ZJU-REAL/Perceive-to-Reason)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01191)
在您的 agent 中获取此论文:
hf papers read 2607\.01191
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型3
hongxingli/P2R-4B Image-Text-to-Text• 5B• 更新于43分钟前(https://huggingface.co/hongxingli/P2R-4B)
hongxingli/P2R-2B Image-Text-to-Text• 2B• 更新于43分钟前(https://huggingface.co/hongxingli/P2R-2B)
hongxingli/P2R-8B Image-Text-to-Text• 9B• 更新于42分钟前(https://huggingface.co/hongxingli/P2R-8B)
引用本论文的数据集1
hongxingli/P2R-10k 查看器• 更新于41分钟前 • 10k • 9(https://huggingface.co/datasets/hongxingli/P2R-10k)
引用本论文的 Space0
无关联本论文的 Space
请在 Space 的 README.md 中引用 arxiv.org/abs/2607.01191,以在此页面建立链接。
包含本论文的收藏1
相似文章
从看到思考:解耦感知与推理改进视觉语言模型的后训练
本文提出一种分阶段训练方法,将视觉感知、视觉推理和文本推理分离为不同阶段。该方法提高了视觉推理准确性,同时缩短了推理链条长度,表明更强的感知能力可减少对过度推理的需求。
看不清还是想不对?面向视觉语言推理的感知奖励
本文提出一种强化学习框架,通过显式奖励感知保真度来改善视觉语言模型中的感知-推理协同,利用“蒙眼推理”代理和结构化言语验证来解决模态信用分配中的模糊性。
PixelEyes:解耦感知与推理,实现精准视觉证据搜寻
PixelEyes 提出了一种多轮视觉推理代理,通过掩码引导搜索和语义区域广度优先搜索解耦感知与推理,并引入新基准(Pinpoint-Bench)和数据集(PixelEyes-6K),以提升视觉证据搜寻中的定位能力。
先见后思:解耦感知与推理实现抗捷径的多模态在策略自蒸馏
本文介绍了ViGOS,一种多模态在策略自蒸馏方法,通过让学生模型先产生视觉描述再进行推理来解耦感知与推理,减少对捷径的依赖并改善图像接地行为。
更多推理,更低准确性?论视觉语言模型中推理的双重性
本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。