面向视觉原生多模态深度搜索智能体的同策略数据演化
摘要
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页面 - 面向视觉原生多模态深度搜索智能体的同策略数据演化
来源:https://huggingface.co/papers/2605.10832
摘要
一种基于图像库引用协议的视觉原生智能体框架,能够复用中间视觉证据并实现闭环数据生成,从而在多个基准测试中提升多模态深度搜索的性能。
多模态深度搜索(https://huggingface.co/papers?q=Multimodal%20deep%20search)要求智能体通过在不断变化的文本和视觉上下文上串联搜索、工具使用以及视觉推理(https://huggingface.co/papers?q=visual%20reasoning)来解决开放世界问题。当前系统面临两个瓶颈。首先,现有的工具使用框架(https://huggingface.co/papers?q=tool-use%20harness)将由搜索、浏览或变换返回的图像视为瞬态输出,导致后续工具无法重新消费中间视觉证据。其次,训练数据通常由固定的策划方案构建,无法跟踪目标智能体能力的演化。为解决这些挑战,我们首先引入了一种以图像库引用协议(https://huggingface.co/papers?q=image%20bank%20reference%20protocol)为核心的视觉原生智能体框架,该协议将每个工具返回的图像注册为可寻址引用,使中间视觉证据可被后续工具复用。在此框架之上,同策略数据演化(On-Policy Data Evolution,ODE)运行一个闭环数据生成器(https://huggingface.co/papers?q=closed-loop%20data%20generator),通过正在训练的政策的 rollout 在多轮迭代中自我优化。这种每轮优化使得每轮的数据目标聚焦于当前策略仍需学习的内容。该框架同时支持多样化的监督微调(https://huggingface.co/papers?q=supervised%20fine-tuning)数据和政策感知强化学习(https://huggingface.co/papers?q=policy-aware%20reinforcement%20learning)数据策划,覆盖目标智能体的完整训练生命周期。在 8 个多模态深度搜索(https://huggingface.co/papers?q=multimodal%20deep%20search)基准测试中,ODE 将 Qwen3-VL-8B 智能体的平均性能从 24.9% 提升至 39.0%,超越了标准智能体工作流设置下的 Gemini-2.5 Pro(37.9%)。在 30B 规模下,ODE 将平均分从 30.6% 提升至 41.5%。进一步的分析验证了图像库复用的有效性,特别是在需要迭代视觉优化的复杂任务上;同时,基于 rollout 反馈的演化(https://huggingface.co/papers?q=rollout-feedback%20evolution)相比静态合成,产生了更扎实的 SFT 轨迹以及更匹配政策的 RL 任务。
查看 arXiv 页面 (https://arxiv.org/abs/2605.10832) 查看 PDF (https://arxiv.org/pdf/2605.10832) 项目页面 (https://on-policy-data-evolution.github.io/) GitHub (https://github.com/JoeYing1019/ODE) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.10832)
在你的智能体中获取这篇论文:
hf papers read 2605\.10832
还没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.10832 以从此页面建立链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加至收藏集 (https://huggingface.co/new-collection) 以从此页面建立链接。
相似文章
Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索
Visual-Seeker 提出了一种视觉原生多模态深度搜索代理,它主动推理细粒度视觉细节并综合多模态证据,在五个具有挑战性的多模态搜索基准上实现了最先进的性能。
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
原生主动感知作为全模态理解的推理方式
介绍OmniAgent,一个全模态代理,使用迭代的观察-思考-行动循环与主动感知,实现卓越的长视频理解,在基准测试上优于更大的模型如Qwen2.5-VL-72B。