SlimSearcher:通过自适应奖励门控训练效率感知的网络代理

Hugging Face Daily Papers 论文

摘要

SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。

深度研究代理在复杂信息寻求任务中展现了卓越的能力,但这种能力伴随着高昂的计算成本。在以准确率为中心的训练范式驱动下,当前模型采用暴力策略,特征为盲目依赖工具和表象推理——生成长而冗余的轨迹,远非解决这些任务所必需,导致工具调用浪费和过多的令牌消耗。为克服这一效率陷阱,我们提出 SlimSearcher,一个原则性框架,在监督微调 (SFT) 和强化学习 (RL) 两个阶段推动准确率与计算成本的帕累托前沿。在 SFT 阶段,SlimSearcher 采用帕累托高效过滤来提炼既成功又经济的轨迹,引导模型走向本质上效率感知的搜索行为。在 RL 阶段,我们引入自适应奖励门控,一种动态奖励塑形机制,在采样队列内评估相对工具和令牌效率。通过将这些自适应效率指标与严格正确性门控级联,我们的方法有效避免了与绝对惩罚相关的简洁性偏差,并缓解了奖励操控。在长期基准测试(包括 GAIA、BrowseComp 和 XBenchDeepSearch)上的大量实验表明,SlimSearcher 在保持或提高准确率的同时,将平均工具调用轮次减少了 17%-58%。
查看原文
查看缓存全文

缓存时间: 2026/06/09 12:42

Paper page - SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating

来源:https://huggingface.co/papers/2606.07074 发布于6月5日

·

由https://huggingface.co/prayerdan提交

dan (https://huggingface.co/prayerdan)于6月9日

摘要

SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤与自适应奖励塑造,在深度研究智能体中提升效率,从而在保持准确性的同时降低计算成本。

深度研究智能体在复杂信息检索任务中展现了卓越的能力,但这一强大性能却伴随着高昂的计算成本。受以准确性为核心的训练范式 (https://huggingface.co/papers?q=accuracy-focused%20training%20paradigms) 驱动,当前模型采用了暴力策略 (https://huggingface.co/papers?q=brute-force%20strategies),其特点包括盲目依赖工具和表演性推理 (https://huggingface.co/papers?q=performative%20reasoning)——生成长且冗余的轨迹,远超解决这些任务的必要范围,导致无效的工具调用和过量的令牌消耗。为了克服这一效率陷阱,我们提出了 SlimSearcher,这是一个原则性框架,在监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning)(SFT)和强化学习 (https://huggingface.co/papers?q=Reinforcement%20Learning)(RL)阶段中,将准确性与计算成本之间的帕累托前沿推向前进。在 SFT 阶段,SlimSearcher 采用帕累托高效过滤 (https://huggingface.co/papers?q=Pareto-efficient%20filtration) 来提取既成功又经济的轨迹,引导模型形成固有的效率感知搜索行为。在 RL 阶段,我们引入了自适应奖励门控 (https://huggingface.co/papers?q=Adaptive%20Reward%20Gating),这是一种动态奖励塑造机制 (https://huggingface.co/papers?q=reward-shaping%20mechanism),可在采样队列中评估相对工具和令牌效率。通过将自适应效率指标与严格的正确性门控级联,我们的方法有效避免了与绝对惩罚相关的简洁性偏差,并缓解了奖励破解问题。在 GAIA、BrowseComp 和 XBenchDeepSearch 等长视界基准上的大量实验表明,SlimSearcher 将平均工具调用轮次 (https://huggingface.co/papers?q=tool-call%20rounds) 降低了 17%–58%,同时保持或提升了准确性。

查看 arXiv 页面 (https://arxiv.org/abs/2606.07074) 查看 PDF (https://arxiv.org/pdf/2606.07074) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.07074)

在你的智能体中获取此论文:

hf papers read 2606.07074

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.07074 以从此页面链接。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL

ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。