InterLV-Search:交织多模态智能体搜索基准测试

Hugging Face Daily Papers 论文

摘要

InterLV-Search 是本文提出的一项新基准,旨在评估交织的语言-视觉智能体搜索能力,凸显了当前系统在视觉证据搜集和多模态融合方面的局限性。

现有的多模态智能体搜索基准测试主要评估多模态搜索和视觉浏览能力,但视觉证据要么仅限于输入端,要么仅作为最终答案端点,而非交织搜索轨迹的一部分。我们提出了 InterLV-Search,这是一个用于交织语言-视觉智能体搜索的基准测试,其中文本和视觉证据会被反复用于指导后续搜索。该基准包含三个层级的 2,061 个示例:主动视觉证据搜集、受控的离线交织多模态搜索,以及开放网络交织多模态搜索。除了现有基准外,它还包含了多模态多分支样本,涉及在证据搜索过程中对多个实体进行比较。我们使用自动化流水线构建了第一和第二层级,并使用机器主导、人工监督的开放网络流水线构建了第三层级。此外,我们提供了 InterLV-Agent,用于标准化工具使用、轨迹记录和评估。针对专有和开源多模态智能体的实验表明,当前系统在解决交织多模态搜索方面仍相差甚远,表现最佳的模型总体准确率也不足 50%,这凸显了在视觉证据搜集、搜索控制以及多模态证据融合方面面临的挑战。我们在 https://github.com/hbhalpha/InterLV-Search-Bench 发布了基准数据和评估代码。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - InterLV-Search:交错式多模态智能体搜索基准测试

来源:https://huggingface.co/papers/2605.07510

摘要

InterLV-Search 基准测试通过评估交错式语言-视觉智能体搜索,揭示了当前系统在视觉证据寻求和多模态证据整合方面的局限性。该基准通过反复利用文本和视觉证据来指导后续搜索。

现有的多模态智能体搜索基准测试(https://huggingface.co/papers?q=multimodal%20agentic%20search)虽然评估了多模态搜索和视觉浏览能力,但视觉证据要么仅限于输入阶段,要么仅被视为答案的终点,而非交错式搜索轨迹(https://huggingface.co/papers?q=interleaved%20search%20trajectory)的一部分。我们引入了 InterLV-Search,这是一个用于交错式语言-视觉智能体搜索的基准测试,其中文本和视觉证据被反复用于指导后续搜索。它包含 2,061 个样本,分为三个级别:主动视觉证据寻求(https://huggingface.co/papers?q=visual%20evidence%20seeking)、受控离线交错式多模态搜索以及开放网页交错式多模态搜索。除了现有基准外,它还包括多模态多分支样本(https://huggingface.co/papers?q=multimodal%20multi-branch%20samples),这些样本涉及在证据搜索过程中对多个实体进行比较。我们使用自动化流水线(https://huggingface.co/papers?q=automated%20pipelines)构建了第一级和第二级,并使用机器主导、人类监督的开放网页流水线构建了第三级。此外,我们还提供了 InterLV-Agent,以实现标准化的工具使用、轨迹记录和评估。在专有和开源多模态智能体(https://huggingface.co/papers?q=multimodal%20agents)上的实验表明,当前系统距离解决交错式多模态搜索问题仍有很大差距,表现最好的模型总体准确率低于 50%,这突显了在视觉证据寻求(https://huggingface.co/papers?q=visual%20evidence%20seeking)、搜索控制(https://huggingface.co/papers?q=search%20control)和多模态证据整合方面面临的挑战。我们在 https://github.com/hbhalpha/InterLV-Search-Bench 发布了基准测试数据和评估代码。

查看 arXiv 页面(https://arxiv.org/abs/2605.07510)查看 PDF(https://arxiv.org/pdf/2605.07510)GitHub(https://github.com/hbhalpha/InterLV-Search-Bench)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.07510)

在你的智能体中获取此论文:

hf papers read 2605\.07510

还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面建立链接。

相似文章

多模态视频理解中视觉状态追踪的基准测试

Hugging Face Daily Papers

介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。

OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试

Papers with Code Trending

OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。