OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方

Hugging Face Daily Papers 论文

摘要

OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。

深度搜索已成为前沿多模态智能体的一项关键能力,使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管相关进展迅速,但顶级多模态搜索智能体仍然难以复现,这主要是由于缺乏高质量的开源训练数据、透明的轨迹合成流程或详细的训练配方。为此,我们推出了 OpenSearch-VL,这是一种完全开源的训练配方,旨在利用代理式强化学习训练前沿的多模态深度搜索智能体。首先,我们设计了一个专门的流程来构建高质量的训练数据,该流程通过维基百科路径采样、模糊实体重写和源锚点视觉接地,共同减少了捷径效应和单步检索崩溃问题。基于此流程,我们筛选出两个训练数据集:用于监督微调(SFT)的 SearchVL-SFT-36k 和用于强化学习(RL)的 SearchVL-RL-8k。此外,我们设计了一个多样化的工具环境,统一了文本搜索、图像搜索、光学字符识别(OCR)、裁剪、锐化、超分辨率和透视校正功能,使智能体能够结合主动感知与外部知识获取。最后,我们提出了一种多轮致命错误感知 GRPO 训练算法,该算法通过遮蔽故障后的 token 并借助单侧优势裁剪保留故障前的有用推理,从而处理级联工具故障。基于该配方,OpenSearch-VL 带来了显著的性能提升,在七个基准测试中平均提升了超过 10 分,并在若干任务上达到了与专有商业模型相当的效果。我们将发布所有数据、代码和模型,以支持多模态深度搜索智能体的开源研究。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:07

论文页面 - OpenSearch-VL:一种用于前沿多模态搜索智能体的开源方案

来源:https://huggingface.co/papers/2605.05185

摘要

OpenSearch-VL 提出了一个开源框架,用于通过强化学习训练先进的多模态搜索智能体,其特点包括专门的数据构建流程、多样化的工具环境,以及一种能在多个基准测试中提升性能的新型训练算法。

深度搜索已成为前沿多模态智能体的一项关键能力,使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管进展迅速,但顶级的多模态搜索智能体 (https://huggingface.co/papers?q=multimodal%20search%20agents) 仍然难以复现,主要原因在于缺乏高质量开源训练数据、透明的轨迹合成流水线或详细的训练方案。为此,我们引入了 OpenSearch-VL,这是一种完全开源的用于训练前沿多模态深度搜索智能体的方案,采用基于智能体的强化学习 (https://huggingface.co/papers?q=agentic%20reinforcement%20learning)。首先,我们构建了一个专用流水线,通过维基百科路径采样 (https://huggingface.co/papers?q=Wikipedia%20path%20sampling)、模糊实体重写 (https://huggingface.co/papers?q=fuzzy%20entity%20rewriting) 和源锚点视觉定位 (https://huggingface.co/papers?q=source-anchor%20visual%20grounding) 来构建高质量训练数据,这些方法共同减少了捷径依赖和单步检索崩溃的问题。基于该流水线,我们构建了两个训练数据集:用于监督微调 (SFT) (https://huggingface.co/papers?q=SFT) 的 SearchVL-SFT-36k,以及用于强化学习 (RL) (https://huggingface.co/papers?q=RL) 的 SearchVL-RL-8k。此外,我们设计了一个多样化的工具环境 (https://huggingface.co/papers?q=tool%20environment),统一了文本搜索、图像搜索、OCR (https://huggingface.co/papers?q=OCR)、裁剪 (https://huggingface.co/papers?q=cropping)、锐化 (https://huggingface.co/papers?q=sharpening)、超分辨率 (https://huggingface.co/papers?q=super-resolution) 和透视校正 (https://huggingface.co/papers?q=perspective%20correction),使智能体能够将主动感知与外部知识获取相结合。最后,我们提出了一种多轮致命错误感知的 GRPO (https://huggingface.co/papers?q=GRPO) 训练算法,通过掩码失败后的 token 同时利用单侧优势裁剪 (https://huggingface.co/papers?q=advantage%20clamping) 保留失败前的有用推理,从而处理级联工具失败问题。基于此方案,OpenSearch-VL 带来了显著的性能提升,在七个基准测试中平均提升了 10 分以上,并在几项任务中达到了与专有商业模型相当的结果。我们将发布所有数据、代码和模型,以支持多模态深度搜索智能体的开源研究。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05185)查看 PDF (https://arxiv.org/pdf/2605.05185)项目页面 (https://huggingface.co/OpenSearch-VL)GitHub69 (https://github.com/shawn0728/OpenSearch-VL)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05185)

在您的智能体中获取此论文:

hf papers read 2605\.05185

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 3

OpenSearch-VL/OpenSearch-VL-8B 770k• 更新于 1 天前 • 33 • 2 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-8B)

OpenSearch-VL/OpenSearch-VL-30B-A3B (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-30B-A3B)

OpenSearch-VL/OpenSearch-VL-32B 1.14M• 更新于 1 天前 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-32B)

引用此论文的数据集 2

OpenSearch-VL/Search-VL-SFT-36K 预览• 更新于 1 天前 • 187 • 3 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K)

OpenSearch-VL/Search-VL-RL-8K 更新于 1 天前 • 48 • 2 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-RL-8K)

引用此论文的应用 0

没有链接到此论文的应用

在应用 README.md 中引用 arxiv.org/abs/2605.05185 即可从此页面建立链接。

包含此论文的收藏集 3

相似文章

变分选项发现算法

OpenAI Blog

OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。