标签
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。
InterLV-Search 是本文提出的一项新基准,旨在评估交织的语言-视觉智能体搜索能力,凸显了当前系统在视觉证据搜集和多模态融合方面的局限性。