Perceive-to-Reason:解耦感知与推理实现细粒度视觉推理

Hugging Face Daily Papers 论文

摘要

提出Perceive-to-Reason(P2R)框架,通过两阶段流程和角色感知的强化学习策略,将视觉语言模型中的视觉感知与推理解耦,在细粒度视觉推理基准上达到最先进水平。

细粒度视觉推理对视觉语言模型而言仍具挑战,尤其当微小但关键的视觉线索隐藏在分辨率图像中时。现有方法依赖反复裁剪或测试时视觉搜索来引入局部证据,但通常未明确区分感知与推理。本文提出Perceive-to-Reason(P2R)统一框架,将细粒度视觉推理形式化为两阶段过程:模型首先作为感知器(Perceiver)定位与问题相关的证据,然后作为推理器(Reasoner)基于标注图像和裁剪区域回答问题。为更好地将训练与此解耦形式对齐,我们进一步引入角色感知的强化学习策略——感知-推理交替GRPO(PRA-GRPO),该策略在仅使用最终答案监督的情况下,交替进行感知聚焦和推理聚焦的更新。基于Qwen3-VL-Instruct-2B/4B/8B构建的P2R在不同模型规模下均持续提升性能。特别是,P2R-4B在V-Star上达到93.2%,在HR-Bench-4K上达到81.9%,在HR-Bench-8K上达到80.5%,大幅超越其对应基线。进一步实验表明,P2R的优势不仅限于高分辨率基准,还能扩展到更广泛的多模态推理任务。这些结果表明,明确解耦感知与推理为细粒度视觉推理提供了有效框架。
查看原文
查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - 感知到推理:解耦感知与推理实现细粒度视觉推理

来源:https://huggingface.co/papers/2607.01191 作者:

摘要

本文提出了一种名为 Perceive-to-Reason(P2R)的统一框架,该框架通过两阶段流程将视觉感知与推理在视觉语言模型中分离,从而提升高分辨率图像上的细粒度视觉推理性能。

细粒度视觉推理(https://huggingface.co/papers?q=Fine-grained%20visual%20reasoning)对于视觉语言模型(https://huggingface.co/papers?q=vision-language%20models)而言仍然具有挑战性,尤其是当微小但关键的视觉线索隐藏在高分辨率图像中时。现有方法依赖反复裁剪或测试时的视觉搜索来引入局部证据,但它们通常并未明确区分感知与推理。在本文中,我们提出 Perceive-to-Reason(P2R),这是一个将细粒度视觉推理(https://huggingface.co/papers?q=fine-grained%20visual%20reasoning)形式化为两阶段过程的统一框架:模型首先作为感知器(Perceiver)(https://huggingface.co/papers?q=Perceiver)定位与问题相关的证据,然后作为推理器(Reasoner)(https://huggingface.co/papers?q=Reasoner)基于标注图像和裁剪区域回答问题。为了更好地将训练与此解耦形式对齐,我们进一步引入感知-推理交替GRPO(Perception-Reasoning Alternating GRPO)(https://huggingface.co/papers?q=Perception-Reasoning%20Alternating%20GRPO)(PRA-GRPO),这是一种角色感知的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)策略,该策略在仅使用最终答案监督的情况下,交替进行感知聚焦和推理聚焦的更新。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在多个模型规模上持续提升性能。特别地,P2R-4B 在 V-Star 上达到 93.2%,在 HR-Bench-4K 上达到 81.9%,在 HR-Bench-8K 上达到 80.5%,显著优于其对应的骨干模型。进一步实验表明,P2R 的优势不仅限于高分辨率基准测试,还可扩展到更广泛的多模态推理(https://huggingface.co/papers?q=multimodal%20reasoning)任务。这些结果表明,明确解耦感知与推理为细粒度视觉推理(https://huggingface.co/papers?q=fine-grained%20visual%20reasoning)提供了一种有效的框架。

查看 arXiv 页面(https://arxiv.org/abs/2607.01191)查看 PDF(https://arxiv.org/pdf/2607.01191)GitHub(https://github.com/ZJU-REAL/Perceive-to-Reason)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01191)

在您的 agent 中获取此论文:

hf papers read 2607\.01191

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型3

hongxingli/P2R-4B Image-Text-to-Text• 5B• 更新于43分钟前(https://huggingface.co/hongxingli/P2R-4B)

hongxingli/P2R-2B Image-Text-to-Text• 2B• 更新于43分钟前(https://huggingface.co/hongxingli/P2R-2B)

hongxingli/P2R-8B Image-Text-to-Text• 9B• 更新于42分钟前(https://huggingface.co/hongxingli/P2R-8B)

引用本论文的数据集1

hongxingli/P2R-10k 查看器• 更新于41分钟前 • 10k • 9(https://huggingface.co/datasets/hongxingli/P2R-10k)

引用本论文的 Space0

无关联本论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2607.01191,以在此页面建立链接。

包含本论文的收藏1

相似文章

PixelEyes:解耦感知与推理,实现精准视觉证据搜寻

Hugging Face Daily Papers

PixelEyes 提出了一种多轮视觉推理代理,通过掩码引导搜索和语义区域广度优先搜索解耦感知与推理,并引入新基准(Pinpoint-Bench)和数据集(PixelEyes-6K),以提升视觉证据搜寻中的定位能力。

更多推理,更低准确性?论视觉语言模型中推理的双重性

Papers with Code Trending

本文揭示,视觉语言模型中的长时间推理可能会损害感知基础,导致对基本视觉问题的识别失败。它提出视觉锚定策略优化(VAPO),将推理引导至视觉基础轨迹,并通过VAPO-Thinker-7B模型实现了最先进的性能。