Perceive-to-Reason：解耦感知与推理实现细粒度视觉推理

Hugging Face Daily Papers 2026/07/01 00:00 论文

摘要

提出Perceive-to-Reason（P2R）框架，通过两阶段流程和角色感知的强化学习策略，将视觉语言模型中的视觉感知与推理解耦，在细粒度视觉推理基准上达到最先进水平。

细粒度视觉推理对视觉语言模型而言仍具挑战，尤其当微小但关键的视觉线索隐藏在分辨率图像中时。现有方法依赖反复裁剪或测试时视觉搜索来引入局部证据，但通常未明确区分感知与推理。本文提出Perceive-to-Reason（P2R）统一框架，将细粒度视觉推理形式化为两阶段过程：模型首先作为感知器（Perceiver）定位与问题相关的证据，然后作为推理器（Reasoner）基于标注图像和裁剪区域回答问题。为更好地将训练与此解耦形式对齐，我们进一步引入角色感知的强化学习策略——感知-推理交替GRPO（PRA-GRPO），该策略在仅使用最终答案监督的情况下，交替进行感知聚焦和推理聚焦的更新。基于Qwen3-VL-Instruct-2B/4B/8B构建的P2R在不同模型规模下均持续提升性能。特别是，P2R-4B在V-Star上达到93.2%，在HR-Bench-4K上达到81.9%，在HR-Bench-8K上达到80.5%，大幅超越其对应基线。进一步实验表明，P2R的优势不仅限于高分辨率基准，还能扩展到更广泛的多模态推理任务。这些结果表明，明确解耦感知与推理为细粒度视觉推理提供了有效框架。

查看原文

查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - 感知到推理：解耦感知与推理实现细粒度视觉推理

来源：https://huggingface.co/papers/2607.01191 作者：

，

摘要

本文提出了一种名为 Perceive-to-Reason（P2R）的统一框架，该框架通过两阶段流程将视觉感知与推理在视觉语言模型中分离，从而提升高分辨率图像上的细粒度视觉推理性能。

细粒度视觉推理（https://huggingface.co/papers?q=Fine-grained%20visual%20reasoning）对于视觉语言模型（https://huggingface.co/papers?q=vision-language%20models）而言仍然具有挑战性，尤其是当微小但关键的视觉线索隐藏在高分辨率图像中时。现有方法依赖反复裁剪或测试时的视觉搜索来引入局部证据，但它们通常并未明确区分感知与推理。在本文中，我们提出 Perceive-to-Reason（P2R），这是一个将细粒度视觉推理（https://huggingface.co/papers?q=fine-grained%20visual%20reasoning）形式化为两阶段过程的统一框架：模型首先作为感知器（Perceiver）（https://huggingface.co/papers?q=Perceiver）定位与问题相关的证据，然后作为推理器（Reasoner）（https://huggingface.co/papers?q=Reasoner）基于标注图像和裁剪区域回答问题。为了更好地将训练与此解耦形式对齐，我们进一步引入感知-推理交替GRPO（Perception-Reasoning Alternating GRPO）（https://huggingface.co/papers?q=Perception-Reasoning%20Alternating%20GRPO）（PRA-GRPO），这是一种角色感知的强化学习（https://huggingface.co/papers?q=reinforcement%20learning）策略，该策略在仅使用最终答案监督的情况下，交替进行感知聚焦和推理聚焦的更新。基于 Qwen3-VL-Instruct-2B/4B/8B，P2R 在多个模型规模上持续提升性能。特别地，P2R-4B 在 V-Star 上达到 93.2%，在 HR-Bench-4K 上达到 81.9%，在 HR-Bench-8K 上达到 80.5%，显著优于其对应的骨干模型。进一步实验表明，P2R 的优势不仅限于高分辨率基准测试，还可扩展到更广泛的多模态推理（https://huggingface.co/papers?q=multimodal%20reasoning）任务。这些结果表明，明确解耦感知与推理为细粒度视觉推理（https://huggingface.co/papers?q=fine-grained%20visual%20reasoning）提供了一种有效的框架。

查看 arXiv 页面（https://arxiv.org/abs/2607.01191）查看 PDF（https://arxiv.org/pdf/2607.01191）GitHub（https://github.com/ZJU-REAL/Perceive-to-Reason）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2607.01191）

在您的 agent 中获取此论文：

hf papers read 2607\.01191

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型3

hongxingli/P2R-4B Image-Text-to-Text• 5B• 更新于43分钟前（https://huggingface.co/hongxingli/P2R-4B）

hongxingli/P2R-2B Image-Text-to-Text• 2B• 更新于43分钟前（https://huggingface.co/hongxingli/P2R-2B）

hongxingli/P2R-8B Image-Text-to-Text• 9B• 更新于42分钟前（https://huggingface.co/hongxingli/P2R-8B）

引用本论文的数据集1

hongxingli/P2R-10k 查看器• 更新于41分钟前 • 10k • 9（https://huggingface.co/datasets/hongxingli/P2R-10k）

引用本论文的 Space0

无关联本论文的 Space

请在 Space 的 README.md 中引用 arxiv.org/abs/2607.01191，以在此页面建立链接。

Perceive-to-Reason：解耦感知与推理实现细粒度视觉推理

论文页面 - 感知到推理：解耦感知与推理实现细粒度视觉推理

摘要

引用本论文的模型3

hongxingli/P2R-4B Image-Text-to-Text• 5B• 更新于43分钟前（https://huggingface.co/hongxingli/P2R-4B）

hongxingli/P2R-2B Image-Text-to-Text• 2B• 更新于43分钟前（https://huggingface.co/hongxingli/P2R-2B）

hongxingli/P2R-8B Image-Text-to-Text• 9B• 更新于42分钟前（https://huggingface.co/hongxingli/P2R-8B）

引用本论文的数据集1

hongxingli/P2R-10k 查看器• 更新于41分钟前 • 10k • 9（https://huggingface.co/datasets/hongxingli/P2R-10k）

引用本论文的 Space0

包含本论文的收藏1

相似文章

从看到思考：解耦感知与推理改进视觉语言模型的后训练

看不清还是想不对？面向视觉语言推理的感知奖励

PixelEyes：解耦感知与推理，实现精准视觉证据搜寻

先见后思：解耦感知与推理实现抗捷径的多模态在策略自蒸馏

更多推理，更低准确性？论视觉语言模型中推理的双重性

提交意见反馈