OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
摘要
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
查看缓存全文
缓存时间: 2026/05/08 08:07
论文页面 - OpenSearch-VL:一种用于前沿多模态搜索智能体的开源方案
来源:https://huggingface.co/papers/2605.05185
摘要
OpenSearch-VL 提出了一个开源框架,用于通过强化学习训练先进的多模态搜索智能体,其特点包括专门的数据构建流程、多样化的工具环境,以及一种能在多个基准测试中提升性能的新型训练算法。
深度搜索已成为前沿多模态智能体的一项关键能力,使模型能够通过主动搜索、证据验证和多步推理来解决复杂问题。尽管进展迅速,但顶级的多模态搜索智能体 (https://huggingface.co/papers?q=multimodal%20search%20agents) 仍然难以复现,主要原因在于缺乏高质量开源训练数据、透明的轨迹合成流水线或详细的训练方案。为此,我们引入了 OpenSearch-VL,这是一种完全开源的用于训练前沿多模态深度搜索智能体的方案,采用基于智能体的强化学习 (https://huggingface.co/papers?q=agentic%20reinforcement%20learning)。首先,我们构建了一个专用流水线,通过维基百科路径采样 (https://huggingface.co/papers?q=Wikipedia%20path%20sampling)、模糊实体重写 (https://huggingface.co/papers?q=fuzzy%20entity%20rewriting) 和源锚点视觉定位 (https://huggingface.co/papers?q=source-anchor%20visual%20grounding) 来构建高质量训练数据,这些方法共同减少了捷径依赖和单步检索崩溃的问题。基于该流水线,我们构建了两个训练数据集:用于监督微调 (SFT) (https://huggingface.co/papers?q=SFT) 的 SearchVL-SFT-36k,以及用于强化学习 (RL) (https://huggingface.co/papers?q=RL) 的 SearchVL-RL-8k。此外,我们设计了一个多样化的工具环境 (https://huggingface.co/papers?q=tool%20environment),统一了文本搜索、图像搜索、OCR (https://huggingface.co/papers?q=OCR)、裁剪 (https://huggingface.co/papers?q=cropping)、锐化 (https://huggingface.co/papers?q=sharpening)、超分辨率 (https://huggingface.co/papers?q=super-resolution) 和透视校正 (https://huggingface.co/papers?q=perspective%20correction),使智能体能够将主动感知与外部知识获取相结合。最后,我们提出了一种多轮致命错误感知的 GRPO (https://huggingface.co/papers?q=GRPO) 训练算法,通过掩码失败后的 token 同时利用单侧优势裁剪 (https://huggingface.co/papers?q=advantage%20clamping) 保留失败前的有用推理,从而处理级联工具失败问题。基于此方案,OpenSearch-VL 带来了显著的性能提升,在七个基准测试中平均提升了 10 分以上,并在几项任务中达到了与专有商业模型相当的结果。我们将发布所有数据、代码和模型,以支持多模态深度搜索智能体的开源研究。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05185)查看 PDF (https://arxiv.org/pdf/2605.05185)项目页面 (https://huggingface.co/OpenSearch-VL)GitHub69 (https://github.com/shawn0728/OpenSearch-VL)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05185)
在您的智能体中获取此论文:
hf papers read 2605\.05185
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 3
OpenSearch-VL/OpenSearch-VL-8B 770k• 更新于 1 天前 • 33 • 2 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-8B)
OpenSearch-VL/OpenSearch-VL-30B-A3B (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-30B-A3B)
OpenSearch-VL/OpenSearch-VL-32B 1.14M• 更新于 1 天前 (https://huggingface.co/OpenSearch-VL/OpenSearch-VL-32B)
引用此论文的数据集 2
OpenSearch-VL/Search-VL-SFT-36K 预览• 更新于 1 天前 • 187 • 3 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-SFT-36K)
OpenSearch-VL/Search-VL-RL-8K 更新于 1 天前 • 48 • 2 (https://huggingface.co/datasets/OpenSearch-VL/Search-VL-RL-8K)
引用此论文的应用 0
没有链接到此论文的应用
在应用 README.md 中引用 arxiv.org/abs/2605.05185 即可从此页面建立链接。
包含此论文的收藏集 3
相似文章
@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
利用专家代理进行自动研究:开发高效且非平凡的训练配方
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
FoodCHA:用于细粒度食物分析的多模态大语言模型智能体
本文介绍了 FoodCHA,这是一个专为细粒度食物分析设计的大语言模型多模态智能体框架,旨在解决饮食监测中的层级一致性和属性识别问题。
SkillOS:面向自进化智能体的技能策展学习
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
变分选项发现算法
OpenAI研究人员提出了VALOR,这是一种用于选项发现的变分推断方法,它将选项学习与变分自编码器联系起来,并提出了一种课程学习方法,通过动态增加上下文复杂性来稳定训练。