SlimSearcher:通过自适应奖励门控训练效率感知的网络代理
摘要
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。
查看缓存全文
缓存时间: 2026/06/09 12:42
Paper page - SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating
来源:https://huggingface.co/papers/2606.07074 发布于6月5日
·
由https://huggingface.co/prayerdan提交
dan (https://huggingface.co/prayerdan)于6月9日
摘要
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤与自适应奖励塑造,在深度研究智能体中提升效率,从而在保持准确性的同时降低计算成本。
深度研究智能体在复杂信息检索任务中展现了卓越的能力,但这一强大性能却伴随着高昂的计算成本。受以准确性为核心的训练范式 (https://huggingface.co/papers?q=accuracy-focused%20training%20paradigms) 驱动,当前模型采用了暴力策略 (https://huggingface.co/papers?q=brute-force%20strategies),其特点包括盲目依赖工具和表演性推理 (https://huggingface.co/papers?q=performative%20reasoning)——生成长且冗余的轨迹,远超解决这些任务的必要范围,导致无效的工具调用和过量的令牌消耗。为了克服这一效率陷阱,我们提出了 SlimSearcher,这是一个原则性框架,在监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning)(SFT)和强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning)(RL)阶段中,将准确性与计算成本之间的帕累托前沿推向前进。在 SFT 阶段,SlimSearcher 采用帕累托高效过滤 (https://huggingface.co/papers?q=Pareto-efficient%20filtration) 来提取既成功又经济的轨迹,引导模型形成固有的效率感知搜索行为。在 RL 阶段,我们引入了自适应奖励门控 (https://huggingface.co/papers?q=Adaptive%20Reward%20Gating),这是一种动态奖励塑造机制 (https://huggingface.co/papers?q=reward-shaping%20mechanism),可在采样队列中评估相对工具和令牌效率。通过将自适应效率指标与严格的正确性门控级联,我们的方法有效避免了与绝对惩罚相关的简洁性偏差,并缓解了奖励破解问题。在 GAIA、BrowseComp 和 XBenchDeepSearch 等长视界基准上的大量实验表明,SlimSearcher 将平均工具调用轮次 (https://huggingface.co/papers?q=tool-call%20rounds) 降低了 17%–58%,同时保持或提升了准确性。
查看 arXiv 页面 (https://arxiv.org/abs/2606.07074) 查看 PDF (https://arxiv.org/pdf/2606.07074) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07074)
在你的智能体中获取此论文:
hf papers read 2606.07074
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。
引用此论文的数据集 0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。
包含此论文的集合 0
没有包含此论文的集合
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
WebShaper:基于信息搜寻形式化的代理式数据合成
WebShaper 是一个形式化驱动的框架,利用集合论和知识投影(Knowledge Projections)合成信息搜寻数据集,在 GAIA 和 WebWalkerQA 基准测试中,其开源代理达到了最先进的性能。
SAAS:面向智能体搜索中过度搜索缓解的自我感知强化学习
SAAS 提出了一种强化学习框架,通过增强智能体的自我感知能力,减少基于 LLM 的问答系统中的不必要搜索,从而平衡准确性与计算成本。
HyperEyes:面向并行多模态搜索代理的双粒度效率感知强化学习
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。
SearchSwarm:面向长周期深度研究的代理型大语言模型中的委托智能
本文介绍了SearchSwarm,一个基于合成委托智能训练的模型,通过任务分解和子代理协调来改进长周期深度研究任务,在BrowseComp基准测试中取得了最先进的结果。
ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励
ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。