掩盖过时观察有助于搜索代理——直到它不再有效:一个机制图谱及其机理

Hugging Face Daily Papers 论文

摘要

本文研究了长程搜索代理中的观察掩盖技术,发现准确率的提升呈现不对称倒U形,取决于检索器能力与模型容量的相互作用,当模型饱和时会出现崩溃。本文提供了机制分析及上下文管理的机制图谱。

长程搜索代理会在多次工具调用中积累大量检索内容,使得上下文预算效率日益重要。一种最小干预措施是在轨迹推进过程中掩盖过时的观察,但这种上下文管理方式何时有效及其原因尚不清楚。我们通过系统性地遍历多种代理主干(4B到284B参数)和三种检索器,在离线与实时网页代理搜索基准上研究了观察掩盖技术。我们发现,掩盖带来的准确率提升与不使用上下文管理时的模型准确率绘制曲线时,呈现不对称倒U形:弱检索器下处于平台期,强检索器与中等容量模型相遇时达到峰值,而模型饱和时则急剧崩溃。这一模式反映了检索器召回率与模型隐式过滤能力之间的相互作用,而非单一因素的作用。从机制上讲,掩盖实现了令牌-回合权衡:它移除了模型基本停止关注的观察,以及代理很少重新打开的页面。增加的回合有助于将失败转化为成功,但若掩盖移除了模型本可使用的证据,则会导致失败。因此,我们将上下文管理重新定义为一种依赖于机制区间的干预,并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此(https://github.com/i-DeepSearch/observation-masking)发布了我们的脚手架与轨迹,以支持未来研究。
查看原文
查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - Masking Stale Observations Helps Search Agents – Until It Doesn’t: A Regime Map and Its Mechanism

来源:https://huggingface.co/papers/2606.00408

摘要

在长时域搜索代理中,观察遮蔽的准确率增益因检索器能力与模型容量之间的相互作用而异,呈现非对称倒U型模式。

长时域搜索代理通过多次工具调用累积大量检索内容,使得上下文预算效率日益重要。一种最小干预是在轨迹推进过程中遮蔽上下文中的陈旧观察,但尚不清楚这种上下文管理形式何时以及为何有效。我们通过对多种代理骨干(参数规模从4B到284B)和三种检索器在离线与实时网页代理搜索基准上进行系统扫描,研究了观察遮蔽的效果。我们发现,当相对于模型在没有上下文管理时的准确率绘制时,遮蔽带来的准确率增益呈现非对称倒U型:在弱检索器下存在一个平台期,当强检索器与中等容量模型相遇时达到峰值,而当模型饱和时则急剧下降。这种模式反映了检索器召回率与模型隐式过滤能力之间的交互作用,而非任一因素的孤立影响。从机制上看,遮蔽实现了一种令牌-回合权衡:它移除了模型基本停止关注的观察,以及代理很少重新打开的页面。当新增回合能将失败转化为成功时,它们有所帮助;但当遮蔽移除了模型原本会使用的证据时,它们就会失败。因此,我们将上下文管理重新定位为一种依赖状态的干预,并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此发布我们的脚手架和轨迹数据(https://github.com/i-DeepSearch/observation-masking),以支持未来研究。

查看 arXiv 页面(https://arxiv.org/abs/2606.00408)查看 PDF(https://arxiv.org/pdf/2606.00408)GitHub0(https://github.com/i-DeepSearch/observation-masking)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00408)

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。

引用此论文的数据集1

i-DeepSearch/observation-masking-eval-logs 预览• 更新于37分钟前 • 548 • 1(https://huggingface.co/datasets/i-DeepSearch/observation-masking-eval-logs)

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集以从此页面链接。

相似文章

长周期研究智能体的搜索纪律

arXiv cs.AI

本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。

@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…

X AI KOLs Following

本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。

置信捷径:掩码扩散模型的一种推理失效模式

arXiv cs.AI

本文识别了掩码扩散语言模型中的一种失效模式:基于置信度的解码在复杂推理任务中导致高置信度错误,并表明置信对齐训练会加剧此问题,而随机掩码则能保持推理性能。

# 通过相关性匹配实现约束增强的物理搜索

arXiv cs.AI

本文提出了"约束增强物理搜索"原理:在探索过程中,时间相关性应与约束诱导的更新动力学中的空间相关性相匹配,并通过拔河赌博机模型加以验证。作者表明,高效搜索并非源于最大随机性,而是源于将时间相关性与将反馈转化为证据的物理更新尺度相匹配。