SAAS:面向智能体搜索中过度搜索缓解的自我感知强化学习

Hugging Face Daily Papers 论文

摘要

SAAS 提出了一种强化学习框架,通过增强智能体的自我感知能力,减少基于 LLM 的问答系统中的不必要搜索,从而平衡准确性与计算成本。

智能体搜索使 LLM 能够通过迭代推理和外部搜索解决复杂的多跳问题。尽管效果显著,但这些系统在实践中常存在一个关键局限:智能体无法识别自身的知识边界,在内部知识足够时盲目触发搜索,且在已收集充分证据时未能终止搜索。这种自我感知的缺失导致严重的过度搜索,带来高昂的推理延迟和计算成本。为此,我们提出 SAAS,一种新颖的强化学习框架,旨在培养动态自我感知能力,精确调节搜索行为而不损害准确性。SAAS 引入三个关键组件:(i) 搜索边界建模机制,通过对比禁用搜索与启用搜索的轨迹,在当前策略下识别搜索边界;(ii) 边界感知奖励模块,将这种边界感知转化为轨迹级惩罚,抑制不必要和冗余的搜索;(iii) 阶段式优化策略,利用顺序课程优先考虑推理而非搜索正则化,从而避免奖励黑客行为。大量实验表明,SAAS 在保持准确性的同时显著减少了过度搜索。我们的代码已匿名发布在 https://github.com/XMUDeepLIT/SAAS。
查看原文
查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - SAAS:用于智能搜索中过度搜索缓解的自我意识强化学习

来源:https://huggingface.co/papers/2605.29796

摘要

SAAS 提出了一种强化学习框架,通过增强智能体的自我意识,减少基于 LLM 的问答系统中的不必要搜索。

智能搜索(https://huggingface.co/papers?q=Agentic%20search)使 LLM(https://huggingface.co/papers?q=LLMs)能通过迭代推理(https://huggingface.co/papers?q=iterative%20reasoning)和外部搜索(https://huggingface.co/papers?q=external%20search)解决复杂的多跳问题(https://huggingface.co/papers?q=multi-hop%20questions)。尽管效果显著,但这些系统在实践中常面临一个关键局限:智能体无法识别自己的知识边界,在内部知识已足够时盲目触发搜索,即使已收集到足够证据也无法终止搜索。缺乏自我意识(https://huggingface.co/papers?q=self-awareness)会导致严重的过度搜索(https://huggingface.co/papers?q=over-search),带来大量的推理延迟和过高的计算成本。为此,我们提出 SAAS,一种新颖的强化学习框架(https://huggingface.co/papers?q=RL%20framework),旨在培养动态自我意识(https://huggingface.co/papers?q=self-awareness),在不牺牲准确性的前提下精确调节搜索行为。SAAS 引入三个关键组件:(i)搜索边界建模(https://huggingface.co/papers?q=search%20boundary%20modeling)机制,通过对比禁用搜索和启用搜索的轨迹,识别决策策略演进下的搜索边界;(ii)边界感知奖励模块(https://huggingface.co/papers?q=boundary-aware%20reward%20module),将这种边界意识转化为轨迹级别的惩罚(https://huggingface.co/papers?q=trajectory-level%20penalties),抑制不必要和冗余的搜索;(iii)分阶段优化(https://huggingface.co/papers?q=stage-wise%20optimization)策略,利用顺序课程优先进行推理而非搜索正则化,从而避免奖励作弊(https://huggingface.co/papers?q=reward%20hacking)。大量实验表明,SAAS 大幅减少过度搜索(https://huggingface.co/papers?q=over-search),同时保持准确性。我们的代码以匿名方式发布在 https://github.com/XMUDeepLIT/SAAS。

查看 arXiv 页面(https://arxiv.org/abs/2605.29796)查看 PDF(https://arxiv.org/pdf/2605.29796)GitHub5(https://github.com/XMUDeepLIT/SAAS)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.29796)

在你的智能体中获取这篇论文:

hf papers read 2605\.29796

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用这篇论文的模型0

无模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.29796 即可从本页链接。

引用这篇论文的数据集0

无数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29796 即可从本页链接。

引用这篇论文的 Space0

无 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2605.29796 即可从本页链接。

包含这篇论文的收藏集0

无收藏集包含此论文

将此论文添加到一个收藏集(https://huggingface.co/new-collection)中即可从本页链接。

相似文章

重新思考 Search as Code Generation (25分钟阅读)

TLDR AI

Perplexity 引入了 Search as Code (SaC),这是一种新的架构,它将搜索原语原子化,供AI代理通过代码组合,超越了传统的单体搜索管道,实现了对检索的细粒度控制。