InterLV-Search:交织多模态智能体搜索基准测试
摘要
InterLV-Search 是本文提出的一项新基准,旨在评估交织的语言-视觉智能体搜索能力,凸显了当前系统在视觉证据搜集和多模态融合方面的局限性。
查看缓存全文
缓存时间: 2026/05/11 02:42
论文页面 - InterLV-Search:交错式多模态智能体搜索基准测试
来源:https://huggingface.co/papers/2605.07510
摘要
InterLV-Search 基准测试通过评估交错式语言-视觉智能体搜索,揭示了当前系统在视觉证据寻求和多模态证据整合方面的局限性。该基准通过反复利用文本和视觉证据来指导后续搜索。
现有的多模态智能体搜索基准测试(https://huggingface.co/papers?q=multimodal%20agentic%20search)虽然评估了多模态搜索和视觉浏览能力,但视觉证据要么仅限于输入阶段,要么仅被视为答案的终点,而非交错式搜索轨迹(https://huggingface.co/papers?q=interleaved%20search%20trajectory)的一部分。我们引入了 InterLV-Search,这是一个用于交错式语言-视觉智能体搜索的基准测试,其中文本和视觉证据被反复用于指导后续搜索。它包含 2,061 个样本,分为三个级别:主动视觉证据寻求(https://huggingface.co/papers?q=visual%20evidence%20seeking)、受控离线交错式多模态搜索以及开放网页交错式多模态搜索。除了现有基准外,它还包括多模态多分支样本(https://huggingface.co/papers?q=multimodal%20multi-branch%20samples),这些样本涉及在证据搜索过程中对多个实体进行比较。我们使用自动化流水线(https://huggingface.co/papers?q=automated%20pipelines)构建了第一级和第二级,并使用机器主导、人类监督的开放网页流水线构建了第三级。此外,我们还提供了 InterLV-Agent,以实现标准化的工具使用、轨迹记录和评估。在专有和开源多模态智能体(https://huggingface.co/papers?q=multimodal%20agents)上的实验表明,当前系统距离解决交错式多模态搜索问题仍有很大差距,表现最好的模型总体准确率低于 50%,这突显了在视觉证据寻求(https://huggingface.co/papers?q=visual%20evidence%20seeking)、搜索控制(https://huggingface.co/papers?q=search%20control)和多模态证据整合方面面临的挑战。我们在 https://github.com/hbhalpha/InterLV-Search-Bench 发布了基准测试数据和评估代码。
查看 arXiv 页面(https://arxiv.org/abs/2605.07510)查看 PDF(https://arxiv.org/pdf/2605.07510)GitHub(https://github.com/hbhalpha/InterLV-Search-Bench)添加到收藏集(https://huggingface.co/login?next=%2Fpapers%2F2605.07510)
在你的智能体中获取此论文:
hf papers read 2605\.07510
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.07510 以从此页面建立链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection)以从此页面建立链接。
相似文章
Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索
Visual-Seeker 提出了一种视觉原生多模态深度搜索代理,它主动推理细粒度视觉细节并综合多模态证据,在五个具有挑战性的多模态搜索基准上实现了最先进的性能。
DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆
介绍DMV-Bench,一个用于评估多模态智能体视觉记忆的交互式基准测试,该测试利用产品图像中的偶然视觉线索,并提出了DualMem,一种双编码记忆架构,在各种链长度上优于纯文本和其他多模态基线。
多模态视频理解中视觉状态追踪的基准测试
介绍VSTAT,一个用于评估多模态大语言模型(MLLMs)中视觉状态追踪的基准,包含834个片段和1,500个问题。当前MLLMs表现远逊于人类,问题出在视觉感知而非推理上。
OVO-S-Bench:面向多模态大语言模型流式空间智能的层次化基准测试
OVO-S-Bench 构建了一个全面的人工标注基准测试,涵盖 348 个视频中的 1,680 道问题,用于评估多模态大语言模型的流式空间智能能力。结果显示,即便是表现最佳的模型(Gemini-3.1-Pro)也比人类专家低 27 分。该基准测试揭示了若干关键局限:以他者为中心的空间映射是主要瓶颈,而思维链推理则会放大空间错误。
OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。