面向视觉原生多模态深度搜索智能体的同策略数据演化

Hugging Face Daily Papers 2026/05/11 00:00 论文

multimodal-agents deep-search data-evolution on-policy-training visual-reasoning qwen-vl

摘要

本文介绍了同策略数据演化（ODE）和一种视觉原生智能体框架，以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成，ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现，超越了 Gemini 2.5 Pro。

多模态深度搜索要求智能体通过串联搜索、工具调用以及在不断演变的文本和视觉上下文中的视觉推理，来解决开放世界问题。当前系统面临两大瓶颈。首先，现有的工具使用框架将由搜索、浏览或转换返回的图像视为临时输出，因此后续的工具体无法重新利用中间阶段的视觉证据。其次，训练数据通常由固定的构建方案生成，无法追踪目标智能体能力的演变。为解决这些挑战，我们首先引入了一种以图像库引用协议为中心的视觉原生智能体框架，该协议将每个工具返回的图像注册为可寻址的引用，使后续工具能够重用中间视觉证据。基于该框架，同策略数据演化（ODE）运行一个闭环数据生成器，通过所训练策略的 rollout 结果在多轮迭代中进行自我优化。这种逐轮优化使每一轮的数据都针对当前策略仍需学习的内容。该框架同时支持多样化的监督微调数据和策略感知的强化学习数据构建，涵盖目标智能体的完整训练生命周期。在 8 个多模态深度搜索基准测试中，ODE 使 Qwen3-VL-8B 智能体的平均得分从 24.9% 提升至 39.0%，在标准智能体工作流设置下超越了 Gemini-2.5 Pro（37.9%）。对于 30B 模型，ODE 将平均得分从 30.6% 提升至 41.5%。进一步的分析验证了图像库重用的有效性，特别是在需要迭代视觉优化的复杂任务中；同时，基于 rollout 反馈的演化相比静态合成生成了更具依据的监督微调轨迹和更匹配策略的强化学习任务。

查看原文

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - 面向视觉原生多模态深度搜索智能体的同策略数据演化

来源：https://huggingface.co/papers/2605.10832

摘要

一种基于图像库引用协议的视觉原生智能体框架，能够复用中间视觉证据并实现闭环数据生成，从而在多个基准测试中提升多模态深度搜索的性能。

多模态深度搜索（https://huggingface.co/papers?q=Multimodal%20deep%20search）要求智能体通过在不断变化的文本和视觉上下文上串联搜索、工具使用以及视觉推理（https://huggingface.co/papers?q=visual%20reasoning）来解决开放世界问题。当前系统面临两个瓶颈。首先，现有的工具使用框架（https://huggingface.co/papers?q=tool-use%20harness）将由搜索、浏览或变换返回的图像视为瞬态输出，导致后续工具无法重新消费中间视觉证据。其次，训练数据通常由固定的策划方案构建，无法跟踪目标智能体能力的演化。为解决这些挑战，我们首先引入了一种以图像库引用协议（https://huggingface.co/papers?q=image%20bank%20reference%20protocol）为核心的视觉原生智能体框架，该协议将每个工具返回的图像注册为可寻址引用，使中间视觉证据可被后续工具复用。在此框架之上，同策略数据演化（On-Policy Data Evolution，ODE）运行一个闭环数据生成器（https://huggingface.co/papers?q=closed-loop%20data%20generator），通过正在训练的政策的 rollout 在多轮迭代中自我优化。这种每轮优化使得每轮的数据目标聚焦于当前策略仍需学习的内容。该框架同时支持多样化的监督微调（https://huggingface.co/papers?q=supervised%20fine-tuning）数据和政策感知强化学习（https://huggingface.co/papers?q=policy-aware%20reinforcement%20learning）数据策划，覆盖目标智能体的完整训练生命周期。在 8 个多模态深度搜索（https://huggingface.co/papers?q=multimodal%20deep%20search）基准测试中，ODE 将 Qwen3-VL-8B 智能体的平均性能从 24.9% 提升至 39.0%，超越了标准智能体工作流设置下的 Gemini-2.5 Pro（37.9%）。在 30B 规模下，ODE 将平均分从 30.6% 提升至 41.5%。进一步的分析验证了图像库复用的有效性，特别是在需要迭代视觉优化的复杂任务上；同时，基于 rollout 反馈的演化（https://huggingface.co/papers?q=rollout-feedback%20evolution）相比静态合成，产生了更扎实的 SFT 轨迹以及更匹配政策的 RL 任务。

查看 arXiv 页面 (https://arxiv.org/abs/2605.10832) 查看 PDF (https://arxiv.org/pdf/2605.10832) 项目页面 (https://on-policy-data-evolution.github.io/) GitHub (https://github.com/JoeYing1019/ODE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10832)

在你的智能体中获取这篇论文：

hf papers read 2605\.10832

还没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加至收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接。

面向视觉原生多模态深度搜索智能体的同策略数据演化

论文页面 - 面向视觉原生多模态深度搜索智能体的同策略数据演化

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

CoEvolve：通过智能体-数据互进化训练LLM智能体

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

OpenSearch-VL：一种用于前沿多模态搜索智能体的开源训练配方

原生主动感知作为全模态理解的推理方式

提交意见反馈