HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

HyperEyes 是一种并行多模态搜索代理，它利用双粒度强化学习来优化推理效率，与现有代理相比，在显著减少工具调用轮次的同时实现了更高的准确率。

现有的多模态搜索代理按顺序处理目标实体，每处理一个实体就发起一次工具调用，当查询分解为独立的子检索任务时，往往会积累大量冗余的交互轮次。我们认为，高效的多模态代理应当“搜得更广”而非“搜得更深”：在单个轮次内并发分发多个基于视觉定位的查询。为此，我们提出了 HyperEyes，一种并行多模态搜索代理，它将视觉定位与检索融合为单一原子动作，支持对多个实体进行并发搜索，同时将推理效率作为首要的训练目标。HyperEyes 经过两个阶段的训练。为了进行冷启动监督，我们开发了一个并行适应性数据合成流水线，涵盖了视觉多实体和文本多约束查询，并通过渐进式拒绝采样策划出注重效率的训练轨迹。在此基础上，我们的核心贡献——一种双粒度效率感知强化学习框架——在两个层面发挥作用。在宏观层面，我们提出了 TRACE（工具使用参考自适应成本效率），这是一种轨迹级奖励机制，其参考值在训练过程中单调收紧，旨在抑制多余的工具体调用，同时不限制真正的多跳搜索。在微观层面，我们调整了策略内蒸馏（On-Policy Distillation），从外部教师模型中为失败的采样结果注入密集的 token 级纠正信号，从而缓解稀疏结果奖励带来的信用分配不足问题。由于现有基准仅评估准确率这一单一指标，忽略了推理成本，我们引入了 IMEB，一个包含 300 个实例的人工策划基准，用于共同评估搜索能力和效率。在六个基准测试中，HyperEyes-30B 的准确率比最强的可比开源代理高出 9.9%，而平均工具调用轮次减少了 5.3 倍。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - HyperEyes：用于并行多模态搜索代理的双粒度效率感知强化学习

来源：https://huggingface.co/papers/2605.07177

摘要

HyperEyes 是一种并行多模态搜索代理，通过双粒度强化学习和专门用于评估准确性与效率的基准测试，在优化推理效率的同时实现实体的并发搜索。

现有的多模态搜索代理 (https://huggingface.co/papers?q=multimodal%20search%20agents) 按顺序处理目标实体，每个实体发起一次工具调用，且当查询分解为独立的子检索 (https://huggingface.co/papers?q=retrieval) 时，会累积冗余的交互轮次。我们认为，有效的多模态代理应追求“广”而非“长”：在同一轮次中并发分派多个基于 grounding 的查询 (https://huggingface.co/papers?q=grounded%20queries)。为此，我们提出了 HyperEyes，一种并行多模态搜索 (https://huggingface.co/papers?q=parallel%20multimodal%20search) 代理，它将视觉 grounding (https://huggingface.co/papers?q=visual%20grounding) 与检索 (https://huggingface.co/papers?q=retrieval) 融合为单个原子动作，在跨多个实体进行并发搜索的同时，将推理效率 (https://huggingface.co/papers?q=inference%20efficiency) 作为一等训练目标。HyperEyes 的训练分为两个阶段。对于冷启动监督，我们开发了一个平行友好型数据合成管道，涵盖视觉多实体和文本多约束查询，并通过渐进式拒绝采样 (https://huggingface.co/papers?q=Progressive%20Rejection%20Sampling) 筛选注重效率的轨迹。在此基础上，我们的核心贡献——双粒度效率感知强化学习 (https://huggingface.co/papers?q=Dual-Grained%20Efficiency-Aware%20Reinforcement%20Learning) 框架，在两个层面运作。在宏观层面，我们提出了 TRACE (https://huggingface.co/papers?q=TRACE)（工具使用参考自适应成本效率），这是一种轨迹级奖励 (https://huggingface.co/papers?q=trajectory-level%20reward)，其参考值在训练过程中单调收紧，以抑制多余的工具调用，同时不限制真正的多跳搜索。在微观层面，我们调整了在线策略蒸馏 (https://huggingface.co/papers?q=On-Policy%20Distillation)，从外部教师模型向失败的 rollout 注入密集的 token 级纠正信号，从而缓解稀疏结果奖励 (https://huggingface.co/papers?q=sparse%20outcome%20rewards) 的信用分配缺陷 (https://huggingface.co/papers?q=credit-assignment%20deficiency)。由于现有基准仅将准确性作为唯一指标，忽略了推理成本，我们引入了 IMEB，这是一个由人工策划的包含 300 个实例的基准测试，共同评估搜索能力和效率。在六个基准测试中，HyperEyes-30B 的准确性比最强的可比开源代理高出 9.9%，平均工具调用轮次 (https://huggingface.co/papers?q=tool-call%20rounds) 减少了 5.3 倍。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07177) 查看 PDF (https://arxiv.org/pdf/2605.07177) GitHub6 (https://github.com/DeepExperience/HyperEyes) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07177)

在您的代理中获取此论文：

hf papers read 2605\.07177

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

引用此论文的 Space 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.07177 以从此页面链接它。

包含此论文的合集 0

没有包含此论文的合集

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接它。

HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

论文页面 - HyperEyes：用于并行多模态搜索代理的双粒度效率感知强化学习

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的合集 0

相似文章

SearchEyes：通过搜索世界模拟迈向前沿多模态深度搜索智能

Visual-Seeker: 通过主动视觉推理实现视觉原生多模态代理搜索

MemEye：面向多模态智能体记忆的视觉中心评估框架

SlimSearcher：通过自适应奖励门控训练效率感知的网络代理

面向视觉原生多模态深度搜索智能体的同策略数据演化

提交意见反馈