从网页到像素:将智能体搜索引入视觉感知
摘要
本文介绍了 WebEye,这是一个需要解析外部知识的物体定位基准测试;同时提出了 Pixel-Searcher,这是一种将搜索结果与视觉标注相结合的智能体方法。
查看缓存全文
缓存时间: 2026/05/13 04:11
论文页面 - 从网络到像素:将智能体搜索引入视觉感知
来源: https://huggingface.co/papers/2605.12497
摘要
研究人员推出了 WebEye,这是一个需要外部知识解析的对象定位基准,以及 Pixel-Searcher,一种基于智能体的方法,通过搜索和推理将隐藏的目标身份与视觉注释连接起来。
视觉感知将高层语义理解与像素级感知联系起来,但大多数现有设定假设识别目标的决定性证据已经存在于图像或冻结的模型知识中。我们研究了一个更实用但也更困难的开放世界案例,其中可见对象必须首先从外部事实、近期事件、长尾实体或多跳关系中解析出来,然后才能进行定位。我们将这一挑战形式化为 Perception Deep Research (https://huggingface.co/papers?q=Perception%20Deep%20Research),并推出了 WebEye,一个以对象为锚点的基准 (https://huggingface.co/papers?q=object-anchored%20benchmark),具有可验证的证据 (https://huggingface.co/papers?q=verifiable%20evidence)、知识密集型查询 (https://huggingface.co/papers?q=knowledge-intensive%20queries)、精确的边界框/掩码注释 (https://huggingface.co/papers?q=precise%20box%2Fmask%20annotations) 以及三个任务视角:基于搜索的定位 (https://huggingface.co/papers?q=Search-based%20Grounding)、基于搜索的分割 (https://huggingface.co/papers?q=Search-based%20Segmentation) 和基于搜索的视觉问答 (https://huggingface.co/papers?q=Search-based%20VQA)。WebEye 包含 120 张图像、473 个注释的对象实例、645 个唯一的问答对和 1,927 个任务样本。我们进一步提出了 Pixel-Searcher (https://huggingface.co/papers?q=Pixel-Searcher),这是一种基于智能体的搜索到像素的工作流 (https://huggingface.co/papers?q=agentic%20search-to-pixel%20workflow),用于解析隐藏的目标身份并将它们绑定到边界框、掩码或定位答案。实验表明,Pixel-Searcher (https://huggingface.co/papers?q=Pixel-Searcher) 在所有三个任务视角中实现了最强的开源性能,而失败主要源于证据获取、身份解析和视觉实例绑定 (https://huggingface.co/papers?q=visual%20instance%20binding)。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12497) 查看 PDF (https://arxiv.org/pdf/2605.12497) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12497)
在你的智能体中获取这篇论文:
hf papers read 2605\.12497
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.12497 以从该页面链接它。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从该页面链接它。
相似文章
HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。
InterLV-Search:交织多模态智能体搜索基准测试
InterLV-Search 是本文提出的一项新基准,旨在评估交织的语言-视觉智能体搜索能力,凸显了当前系统在视觉证据搜集和多模态融合方面的局限性。
重新思考基于 Pi-Serini 的智能体搜索:词法检索是否足够?
本文介绍了 Pi-Serini,这是一个基于 BM25 的智能体搜索系统。该系统证明了当智能体优化查询时,词法检索足以支持深度搜索,相比默认设置,它在实现高准确率的同时降低了成本。
我给 AI 代理在我的电脑上装上了“眼睛”
作者介绍了 Pupil,这是一款开源工具,使 AI 代理能够视觉检查 PC 用户界面并识别点击目标,而无需依赖截图。
超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索
论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。