FORT-Searcher: 合成抗捷径搜索任务用于训练深度搜索智能体
摘要
FORT-Searcher 提出了一种框架,通过识别和缓解四种捷径风险,为深度搜索智能体合成抗捷径的训练数据。由此产生的智能体经过监督微调训练,在可比较的开源搜索智能体中取得了最先进的性能。
查看缓存全文
缓存时间: 2026/06/12 02:52
论文页面 - FORT-Searcher: 合成抗捷径的搜索任务以训练深度搜索代理
来源:https://huggingface.co/papers/2606.12087
发布于 6 月 10 日
#2 每日论文 (https://huggingface.co/papers/date/2026-06-12)
作者:
,
,
,
,
,
,
,
,
,
,
摘要
一个用于为深度搜索代理创建抗捷径训练数据的框架,通过识别并缓解数据合成过程中的四种捷径风险。
训练深度搜索代理 (https://huggingface.co/papers?q=deep%20search%20agents) 需要可验证的问题,且答案在通过搜索获取足够证据之前不可得。现有合成方法通常通过丰富图结构来增加表观难度,但仅凭结构复杂性并不能保证实际的搜索难度:本应多步的搜索过程可能通过更廉价的识别路径而崩溃。我们通过捷径感知难度框架 (https://huggingface.co/papers?q=shortcut-aware%20difficulty%20framework) 形式化了这一差距,并识别了四种可操作的捷径风险 (https://huggingface.co/papers?q=shortcut%20risks):证据共覆盖、单线索选择性、暴露常量以及先验知识绑定。为了诊断它们的实际影响,我们使用了轨迹特征 (https://huggingface.co/papers?q=trajectory%20signatures),包括解决成本、答案命中时间以及先验捷径率。在此框架指导下,我们提出了 FORT (https://huggingface.co/papers?q=FORT),一个抗捷径训练数据合成框架。FORT (https://huggingface.co/papers?q=FORT) 通过在实体选择、证据图构建、问题制定和对抗性改进中控制捷径风险 (https://huggingface.co/papers?q=shortcut%20risks) 来构建抗捷径的训练数据。实验表明,与现有的开源深度搜索数据集相比,FORT (https://huggingface.co/papers?q=FORT) 诱导了更长的答案前搜索和更少的捷径模式。利用生成的轨迹,我们仅通过监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) (SFT) 训练了 FORT (https://huggingface.co/papers?q=FORT)-Searcher,并在具有挑战性的深度搜索基准 (https://huggingface.co/papers?q=deep%20search%20benchmarks) 上取得了可比较规模开源搜索代理中的最佳整体性能。相关资源将在 https://github.com/RUCAIBox/FORT (https://huggingface.co/papers?q=FORT)-Searcher 提供。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12087)查看 PDF (https://arxiv.org/pdf/2606.12087)GitHub4 (https://github.com/RUCAIBox/FORT-Searcher)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12087)
在您的代理中获取此论文:
hf papers read 2606\.12087
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12087 以从本页链接。
引用此论文的数据集0
无数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12087 以从本页链接。
引用此论文的 Space0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12087 以从本页链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
SlimSearcher:通过自适应奖励门控训练效率感知的网络代理
SlimSearcher 是一个框架,通过结合帕累托高效轨迹过滤和自适应奖励塑形,提升深度研究代理的效率,在 GAIA、BrowseComp 和 XBenchDeepSearch 等基准测试中,将工具调用轮次减少 17%-58%,同时保持准确率。
QUEST:通过全合成任务训练前沿深度研究智能体
QUEST是一个开放的深度研究智能体家族,使用合成数据和强化学习训练,在多种长周期搜索任务中取得了强劲的性能,接近前沿闭源智能体。
@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
Harness-1:采用状态外化约束的搜索代理强化学习
介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。
@patpcj:再次感谢您对我们工作的兴趣!链接在此,以免被“显示更多”埋没:论文:https://arxi…
Harness-1 是一个 20B 参数规模的搜索代理,通过使用有状态搜索线索的强化学习进行训练,在检索基准测试中取得了强劲结果,并优于其他开源搜索子代理。