掩盖过时观察有助于搜索代理——直到它不再有效：一个机制图谱及其机理

Hugging Face Daily Papers 2026/05/29 00:00 论文

long-horizon-search observation-masking context-management agentic-search retrieval model-capacity regime-map

摘要

本文研究了长程搜索代理中的观察掩盖技术，发现准确率的提升呈现不对称倒U形，取决于检索器能力与模型容量的相互作用，当模型饱和时会出现崩溃。本文提供了机制分析及上下文管理的机制图谱。

长程搜索代理会在多次工具调用中积累大量检索内容，使得上下文预算效率日益重要。一种最小干预措施是在轨迹推进过程中掩盖过时的观察，但这种上下文管理方式何时有效及其原因尚不清楚。我们通过系统性地遍历多种代理主干（4B到284B参数）和三种检索器，在离线与实时网页代理搜索基准上研究了观察掩盖技术。我们发现，掩盖带来的准确率提升与不使用上下文管理时的模型准确率绘制曲线时，呈现不对称倒U形：弱检索器下处于平台期，强检索器与中等容量模型相遇时达到峰值，而模型饱和时则急剧崩溃。这一模式反映了检索器召回率与模型隐式过滤能力之间的相互作用，而非单一因素的作用。从机制上讲，掩盖实现了令牌-回合权衡：它移除了模型基本停止关注的观察，以及代理很少重新打开的页面。增加的回合有助于将失败转化为成功，但若掩盖移除了模型本可使用的证据，则会导致失败。因此，我们将上下文管理重新定义为一种依赖于机制区间的干预，并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此（https://github.com/i-DeepSearch/observation-masking）发布了我们的脚手架与轨迹，以支持未来研究。

查看原文

查看缓存全文

缓存时间: 2026/06/02 03:23

论文页面 - Masking Stale Observations Helps Search Agents – Until It Doesn’t: A Regime Map and Its Mechanism

来源：https://huggingface.co/papers/2606.00408

摘要

在长时域搜索代理中，观察遮蔽的准确率增益因检索器能力与模型容量之间的相互作用而异，呈现非对称倒U型模式。

长时域搜索代理通过多次工具调用累积大量检索内容，使得上下文预算效率日益重要。一种最小干预是在轨迹推进过程中遮蔽上下文中的陈旧观察，但尚不清楚这种上下文管理形式何时以及为何有效。我们通过对多种代理骨干（参数规模从4B到284B）和三种检索器在离线与实时网页代理搜索基准上进行系统扫描，研究了观察遮蔽的效果。我们发现，当相对于模型在没有上下文管理时的准确率绘制时，遮蔽带来的准确率增益呈现非对称倒U型：在弱检索器下存在一个平台期，当强检索器与中等容量模型相遇时达到峰值，而当模型饱和时则急剧下降。这种模式反映了检索器召回率与模型隐式过滤能力之间的交互作用，而非任一因素的孤立影响。从机制上看，遮蔽实现了一种令牌-回合权衡：它移除了模型基本停止关注的观察，以及代理很少重新打开的页面。当新增回合能将失败转化为成功时，它们有所帮助；但当遮蔽移除了模型原本会使用的证据时，它们就会失败。因此，我们将上下文管理重新定位为一种依赖状态的干预，并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此发布我们的脚手架和轨迹数据（https://github.com/i-DeepSearch/observation-masking），以支持未来研究。

查看 arXiv 页面（https://arxiv.org/abs/2606.00408）查看 PDF（https://arxiv.org/pdf/2606.00408）GitHub0（https://github.com/i-DeepSearch/observation-masking）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.00408）

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。

引用此论文的数据集1

i-DeepSearch/observation-masking-eval-logs 预览• 更新于37分钟前 • 548 • 1（https://huggingface.co/datasets/i-DeepSearch/observation-masking-eval-logs）

引用此论文的 Spaces0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集以从此页面链接。

掩盖过时观察有助于搜索代理——直到它不再有效：一个机制图谱及其机理

论文页面 - Masking Stale Observations Helps Search Agents – Until It Doesn’t: A Regime Map and Its Mechanism

摘要

引用此论文的模型0

引用此论文的数据集1

i-DeepSearch/observation-masking-eval-logs 预览• 更新于37分钟前 • 548 • 1（https://huggingface.co/datasets/i-DeepSearch/observation-masking-eval-logs）

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

长周期研究智能体的搜索纪律

学会记住什么：面向长时域语言代理的基于约束优化的可观测性安全记忆保留

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

置信捷径：掩码扩散模型的一种推理失效模式

# 通过相关性匹配实现约束增强的物理搜索

提交意见反馈