HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习
摘要
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。
查看缓存全文
缓存时间: 2026/05/11 07:20
论文页面 - HyperEyes:用于并行多模态搜索代理的双粒度效率感知强化学习
来源:https://huggingface.co/papers/2605.07177
摘要
HyperEyes 是一种并行多模态搜索代理,通过双粒度强化学习和专门用于评估准确性与效率的基准测试,在优化推理效率的同时实现实体的并发搜索。
现有的多模态搜索代理 (https://huggingface.co/papers?q=multimodal%20search%20agents) 按顺序处理目标实体,每个实体发起一次工具调用,且当查询分解为独立的子检索 (https://huggingface.co/papers?q=retrieval) 时,会累积冗余的交互轮次。我们认为,有效的多模态代理应追求“广”而非“长”:在同一轮次中并发分派多个基于 grounding 的查询 (https://huggingface.co/papers?q=grounded%20queries)。为此,我们提出了 HyperEyes,一种并行多模态搜索 (https://huggingface.co/papers?q=parallel%20multimodal%20search) 代理,它将视觉 grounding (https://huggingface.co/papers?q=visual%20grounding) 与检索 (https://huggingface.co/papers?q=retrieval) 融合为单个原子动作,在跨多个实体进行并发搜索的同时,将推理效率 (https://huggingface.co/papers?q=inference%20efficiency) 作为一等训练目标。HyperEyes 的训练分为两个阶段。对于冷启动监督,我们开发了一个平行友好型数据合成管道,涵盖视觉多实体和文本多约束查询,并通过渐进式拒绝采样 (https://huggingface.co/papers?q=Progressive%20Rejection%20Sampling) 筛选注重效率的轨迹。在此基础上,我们的核心贡献——双粒度效率感知强化学习 (https://huggingface.co/papers?q=Dual-Grained%20Efficiency-Aware%20Reinforcement%20Learning) 框架,在两个层面运作。在宏观层面,我们提出了 TRACE (https://huggingface.co/papers?q=TRACE)(工具使用参考自适应成本效率),这是一种轨迹级奖励 (https://huggingface.co/papers?q=trajectory-level%20reward),其参考值在训练过程中单调收紧,以抑制多余的工具调用,同时不限制真正的多跳搜索。在微观层面,我们调整了在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation),从外部教师模型向失败的 rollout 注入密集的 token 级纠正信号,从而缓解稀疏结果奖励 (https://huggingface.co/papers?q=sparse%20outcome%20rewards) 的信用分配缺陷 (https://huggingface.co/papers?q=credit-assignment%20deficiency)。由于现有基准仅将准确性作为唯一指标,忽略了推理成本,我们引入了 IMEB,这是一个由人工策划的包含 300 个实例的基准测试,共同评估搜索能力和效率。在六个基准测试中,HyperEyes-30B 的准确性比最强的可比开源代理高出 9.9%,平均工具调用轮次 (https://huggingface.co/papers?q=tool-call%20rounds) 减少了 5.3 倍。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07177) 查看 PDF (https://arxiv.org/pdf/2605.07177) GitHub6 (https://github.com/DeepExperience/HyperEyes) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07177)
在您的代理中获取此论文:
hf papers read 2605\.07177
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。
引用此论文的 Space 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。
包含此论文的合集 0
没有包含此论文的合集
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
SlimSearcher:通过自适应奖励门控训练效率感知的网络代理
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。
面向视觉原生多模态深度搜索智能体的同策略数据演化
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。