HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习

Hugging Face Daily Papers 论文

摘要

HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。

现有的多模态搜索代理按顺序处理目标实体,每处理一个实体就发起一次工具调用,当查询分解为独立的子检索任务时,往往会积累大量冗余的交互轮次。我们认为,高效的多模态代理应当“搜得更广”而非“搜得更深”:在单个轮次内并发分发多个基于视觉定位的查询。为此,我们提出了 HyperEyes,一种并行多模态搜索代理,它将视觉定位与检索融合为单一原子动作,支持对多个实体进行并发搜索,同时将推理效率作为首要的训练目标。HyperEyes 经过两个阶段的训练。为了进行冷启动监督,我们开发了一个并行适应性数据合成流水线,涵盖了视觉多实体和文本多约束查询,并通过渐进式拒绝采样策划出注重效率的训练轨迹。在此基础上,我们的核心贡献——一种双粒度效率感知强化学习框架——在两个层面发挥作用。在宏观层面,我们提出了 TRACE(工具使用参考自适应成本效率),这是一种轨迹级奖励机制,其参考值在训练过程中单调收紧,旨在抑制多余的工具体调用,同时不限制真正的多跳搜索。在微观层面,我们调整了策略内蒸馏(On-Policy Distillation),从外部教师模型中为失败的采样结果注入密集的 token 级纠正信号,从而缓解稀疏结果奖励带来的信用分配不足问题。由于现有基准仅评估准确率这一单一指标,忽略了推理成本,我们引入了 IMEB,一个包含 300 个实例的人工策划基准,用于共同评估搜索能力和效率。在六个基准测试中,HyperEyes-30B 的准确率比最强的可比开源代理高出 9.9%,而平均工具调用轮次减少了 5.3 倍。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - HyperEyes:用于并行多模态搜索代理的双粒度效率感知强化学习

来源:https://huggingface.co/papers/2605.07177

摘要

HyperEyes 是一种并行多模态搜索代理,通过双粒度强化学习和专门用于评估准确性与效率的基准测试,在优化推理效率的同时实现实体的并发搜索。

现有的多模态搜索代理 (https://huggingface.co/papers?q=multimodal%20search%20agents) 按顺序处理目标实体,每个实体发起一次工具调用,且当查询分解为独立的子检索 (https://huggingface.co/papers?q=retrieval) 时,会累积冗余的交互轮次。我们认为,有效的多模态代理应追求“广”而非“长”:在同一轮次中并发分派多个基于 grounding 的查询 (https://huggingface.co/papers?q=grounded%20queries)。为此,我们提出了 HyperEyes,一种并行多模态搜索 (https://huggingface.co/papers?q=parallel%20multimodal%20search) 代理,它将视觉 grounding (https://huggingface.co/papers?q=visual%20grounding) 与检索 (https://huggingface.co/papers?q=retrieval) 融合为单个原子动作,在跨多个实体进行并发搜索的同时,将推理效率 (https://huggingface.co/papers?q=inference%20efficiency) 作为一等训练目标。HyperEyes 的训练分为两个阶段。对于冷启动监督,我们开发了一个平行友好型数据合成管道,涵盖视觉多实体和文本多约束查询,并通过渐进式拒绝采样 (https://huggingface.co/papers?q=Progressive%20Rejection%20Sampling) 筛选注重效率的轨迹。在此基础上,我们的核心贡献——双粒度效率感知强化学习 (https://huggingface.co/papers?q=Dual-Grained%20Efficiency-Aware%20Reinforcement%20Learning) 框架,在两个层面运作。在宏观层面,我们提出了 TRACE (https://huggingface.co/papers?q=TRACE)(工具使用参考自适应成本效率),这是一种轨迹级奖励 (https://huggingface.co/papers?q=trajectory-level%20reward),其参考值在训练过程中单调收紧,以抑制多余的工具调用,同时不限制真正的多跳搜索。在微观层面,我们调整了在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation),从外部教师模型向失败的 rollout 注入密集的 token 级纠正信号,从而缓解稀疏结果奖励 (https://huggingface.co/papers?q=sparse%20outcome%20rewards) 的信用分配缺陷 (https://huggingface.co/papers?q=credit-assignment%20deficiency)。由于现有基准仅将准确性作为唯一指标,忽略了推理成本,我们引入了 IMEB,这是一个由人工策划的包含 300 个实例的基准测试,共同评估搜索能力和效率。在六个基准测试中,HyperEyes-30B 的准确性比最强的可比开源代理高出 9.9%,平均工具调用轮次 (https://huggingface.co/papers?q=tool-call%20rounds) 减少了 5.3 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07177) 查看 PDF (https://arxiv.org/pdf/2605.07177) GitHub6 (https://github.com/DeepExperience/HyperEyes) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07177)

在您的代理中获取此论文:

hf papers read 2605\.07177

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

引用此论文的 Space 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

MemEye:面向多模态智能体记忆的视觉中心评估框架

Hugging Face Daily Papers

MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。

面向视觉原生多模态深度搜索智能体的同策略数据演化

Hugging Face Daily Papers

本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。