OpenSearch-VL：一种用于前沿多模态搜索智能体的开源训练配方

Hugging Face Daily Papers 2026/05/06 00:00 论文

multimodal search-agents reinforcement-learning open-source vision-language deep-search grpo

摘要

OpenSearch-VL 是一个开源框架及论文，介绍了一种利用强化学习训练前沿多模态搜索智能体的方法，其中包含专用的数据筛选流程以及一种新颖的训练算法。

深度搜索已成为前沿多模态智能体的一项关键能力，使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管相关进展迅速，但顶级多模态搜索智能体仍然难以复现，这主要是由于缺乏高质量的开源训练数据、透明的轨迹合成流程或详细的训练配方。为此，我们推出了 OpenSearch-VL，这是一种完全开源的训练配方，旨在利用代理式强化学习训练前沿的多模态深度搜索智能体。首先，我们设计了一个专门的流程来构建高质量的训练数据，该流程通过维基百科路径采样、模糊实体重写和源锚点视觉接地，共同减少了捷径效应和单步检索崩溃问题。基于此流程，我们筛选出两个训练数据集：用于监督微调（SFT）的 SearchVL-SFT-36k 和用于强化学习（RL）的 SearchVL-RL-8k。此外，我们设计了一个多样化的工具环境，统一了文本搜索、图像搜索、光学字符识别（OCR）、裁剪、锐化、超分辨率和透视校正功能，使智能体能够结合主动感知与外部知识获取。最后，我们提出了一种多轮致命错误感知 GRPO 训练算法，该算法通过遮蔽故障后的 token 并借助单侧优势裁剪保留故障前的有用推理，从而处理级联工具故障。基于该配方，OpenSearch-VL 带来了显著的性能提升，在七个基准测试中平均提升了超过 10 分，并在若干任务上达到了与专有商业模型相当的效果。我们将发布所有数据、代码和模型，以支持多模态深度搜索智能体的开源研究。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:07

论文页面 - OpenSearch-VL：一种用于前沿多模态搜索智能体的开源方案

来源：https://huggingface.co/papers/2605.05185

摘要

OpenSearch-VL 提出了一个开源框架，用于通过强化学习训练先进的多模态搜索智能体，其特点包括专门的数据构建流程、多样化的工具环境，以及一种能在多个基准测试中提升性能的新型训练算法。

深度搜索已成为前沿多模态智能体的一项关键能力，使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管进展迅速，但顶级的多模态搜索智能体 (https://huggingface.co/papers?q=multimodal%20search%20agents) 仍然难以复现，主要原因在于缺乏高质量开源训练数据、透明的轨迹合成流水线或详细的训练方案。为此，我们引入了 OpenSearch-VL，这是一种完全开源的用于训练前沿多模态深度搜索智能体的方案，采用基于智能体的强化学习 (https://huggingface.co/papers?q=agentic%20reinforcement%20learning)。首先，我们构建了一个专用流水线，通过维基百科路径采样 (https://huggingface.co/papers?q=Wikipedia%20path%20sampling)、模糊实体重写 (https://huggingface.co/papers?q=fuzzy%20entity%20rewriting) 和源锚点视觉定位 (https://huggingface.co/papers?q=source-anchor%20visual%20grounding) 来构建高质量训练数据，这些方法共同减少了捷径依赖和单步检索崩溃的问题。基于该流水线，我们构建了两个训练数据集：用于监督微调 (SFT) (https://huggingface.co/papers?q=SFT) 的 SearchVL-SFT-36k，以及用于强化学习 (RL) (https://huggingface.co/papers?q=RL) 的 SearchVL-RL-8k。此外，我们设计了一个多样化的工具环境 (https://huggingface.co/papers?q=tool%20environment)，统一了文本搜索、图像搜索、OCR (https://huggingface.co/papers?q=OCR)、裁剪 (https://huggingface.co/papers?q=cropping)、锐化 (https://huggingface.co/papers?q=sharpening)、超分辨率 (https://huggingface.co/papers?q=super-resolution) 和透视校正 (https://huggingface.co/papers?q=perspective%20correction)，使智能体能够将主动感知与外部知识获取相结合。最后，我们提出了一种多轮致命错误感知的 GRPO (https://huggingface.co/papers?q=GRPO) 训练算法，通过掩码失败后的 token 同时利用单侧优势裁剪 (https://huggingface.co/papers?q=advantage%20clamping) 保留失败前的有用推理，从而处理级联工具失败问题。基于此方案，OpenSearch-VL 带来了显著的性能提升，在七个基准测试中平均提升了 10 分以上，并在几项任务中达到了与专有商业模型相当的结果。我们将发布所有数据、代码和模型，以支持多模态深度搜索智能体的开源研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05185)查看 PDF (https://arxiv.org/pdf/2605.05185)项目页面 (https://huggingface.co/OpenSearch-VL)GitHub69 (https://github.com/shawn0728/OpenSearch-VL)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05185)

在您的智能体中获取此论文：

hf papers read 2605\.05185

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 3

OpenSearch-VL/OpenSearch-VL-8B 770k• 更新于 1 天前 • 33 • 2 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-8B)

OpenSearch-VL/OpenSearch-VL-30B-A3B (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-30B-A3B)

OpenSearch-VL/OpenSearch-VL-32B 1.14M• 更新于 1 天前 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-32B)

引用此论文的数据集 2

OpenSearch-VL/Search-VL-SFT-36K 预览• 更新于 1 天前 • 187 • 3 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K)

OpenSearch-VL/Search-VL-RL-8K 更新于 1 天前 • 48 • 2 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-RL-8K)

引用此论文的应用 0

没有链接到此论文的应用

在应用 README.md 中引用 arxiv.org/abs/2605.05185 即可从此页面建立链接。

OpenSearch-VL：一种用于前沿多模态搜索智能体的开源训练配方

论文页面 - OpenSearch-VL：一种用于前沿多模态搜索智能体的开源方案

摘要

引用此论文的模型 3

OpenSearch-VL/OpenSearch-VL-8B 770k• 更新于 1 天前 • 33 • 2 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-8B)

OpenSearch-VL/OpenSearch-VL-30B-A3B (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-30B-A3B)

OpenSearch-VL/OpenSearch-VL-32B 1.14M• 更新于 1 天前 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-32B)

引用此论文的数据集 2

OpenSearch-VL/Search-VL-SFT-36K 预览• 更新于 1 天前 • 187 • 3 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K)

OpenSearch-VL/Search-VL-RL-8K 更新于 1 天前 • 48 • 2 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-RL-8K)

引用此论文的应用 0

包含此论文的收藏集 3

相似文章

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

利用专家代理进行自动研究：开发高效且非平凡的训练配方

FoodCHA：用于细粒度食物分析的多模态大语言模型智能体

SkillOS：面向自进化智能体的技能策展学习

变分选项发现算法

提交意见反馈