从网页到像素：将智能体搜索引入视觉感知

Hugging Face Daily Papers 2026/05/12 00:00 论文

computer-vision agentic-search visual-perception object-localization benchmark reasoning

摘要

本文介绍了 WebEye，这是一个需要解析外部知识的物体定位基准测试；同时提出了 Pixel-Searcher，这是一种将搜索结果与视觉标注相结合的智能体方法。

视觉感知将高层语义理解与像素级感知联系起来，但大多数现有设定假设识别目标的关键证据已经存在于图像或冻结的模型知识中。我们研究了一种更实际但也更具挑战性的开放世界案例：在能够定位可见物体之前，必须先通过外部事实、近期事件、长尾实体或多跳关系来解析该物体。我们将这一挑战形式化为“感知深度研究”（Perception Deep Research），并引入了 WebEye，这是一个以物体为锚点的基准测试，具备可验证的证据、知识密集型查询、精确的边界框/掩码标注，以及三个任务视角：基于搜索的定位（Search-based Grounding）、基于搜索的分割（Search-based Segmentation）和基于搜索的视觉问答（Search-based VQA）。WebEye 包含 120 张图像、473 个带标注的物体实例、645 个独特的问答对以及 1,927 个任务样本。我们进一步提出了 Pixel-Searcher，这是一种从搜索到像素的智能体工作流，能够解析隐藏的目标身份并将其与边界框、掩码或定位答案绑定。实验表明，Pixel-Searcher 在所有三个任务视角中均实现了最强的开源性能，而主要的失败原因来自于证据获取、身份解析和视觉实例绑定。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 04:11

论文页面 - 从网络到像素：将智能体搜索引入视觉感知

来源: https://huggingface.co/papers/2605.12497

摘要

研究人员推出了 WebEye，这是一个需要外部知识解析的对象定位基准，以及 Pixel-Searcher，一种基于智能体的方法，通过搜索和推理将隐藏的目标身份与视觉注释连接起来。

视觉感知将高层语义理解与像素级感知联系起来，但大多数现有设定假设识别目标的决定性证据已经存在于图像或冻结的模型知识中。我们研究了一个更实用但也更困难的开放世界案例，其中可见对象必须首先从外部事实、近期事件、长尾实体或多跳关系中解析出来，然后才能进行定位。我们将这一挑战形式化为 Perception Deep Research (https://huggingface.co/papers?q=Perception%20Deep%20Research)，并推出了 WebEye，一个以对象为锚点的基准 (https://huggingface.co/papers?q=object-anchored%20benchmark)，具有可验证的证据 (https://huggingface.co/papers?q=verifiable%20evidence)、知识密集型查询 (https://huggingface.co/papers?q=knowledge-intensive%20queries)、精确的边界框/掩码注释 (https://huggingface.co/papers?q=precise%20box%2Fmask%20annotations) 以及三个任务视角：基于搜索的定位 (https://huggingface.co/papers?q=Search-based%20Grounding)、基于搜索的分割 (https://huggingface.co/papers?q=Search-based%20Segmentation) 和基于搜索的视觉问答 (https://huggingface.co/papers?q=Search-based%20VQA)。WebEye 包含 120 张图像、473 个注释的对象实例、645 个唯一的问答对和 1,927 个任务样本。我们进一步提出了 Pixel-Searcher (https://huggingface.co/papers?q=Pixel-Searcher)，这是一种基于智能体的搜索到像素的工作流 (https://huggingface.co/papers?q=agentic%20search-to-pixel%20workflow)，用于解析隐藏的目标身份并将它们绑定到边界框、掩码或定位答案。实验表明，Pixel-Searcher (https://huggingface.co/papers?q=Pixel-Searcher) 在所有三个任务视角中实现了最强的开源性能，而失败主要源于证据获取、身份解析和视觉实例绑定 (https://huggingface.co/papers?q=visual%20instance%20binding)。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12497) 查看 PDF (https://arxiv.org/pdf/2605.12497) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12497)

在你的智能体中获取这篇论文：

hf papers read 2605\.12497

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接它。

从网页到像素：将智能体搜索引入视觉感知

论文页面 - 从网络到像素：将智能体搜索引入视觉感知

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

InterLV-Search：交织多模态智能体搜索基准测试

重新思考基于 Pi-Serini 的智能体搜索：词法检索是否足够？

我给 AI 代理在我的电脑上装上了“眼睛”

超越语义相似性：通过直接语料库交互重新思考智能体搜索的检索

提交意见反馈