掩盖过时观察有助于搜索代理——直到它不再有效:一个机制图谱及其机理
摘要
本文研究了长程搜索代理中的观察掩盖技术,发现准确率的提升呈现不对称倒U形,取决于检索器能力与模型容量的相互作用,当模型饱和时会出现崩溃。本文提供了机制分析及上下文管理的机制图谱。
查看缓存全文
缓存时间: 2026/06/02 03:23
论文页面 - Masking Stale Observations Helps Search Agents – Until It Doesn’t: A Regime Map and Its Mechanism
来源:https://huggingface.co/papers/2606.00408
摘要
在长时域搜索代理中,观察遮蔽的准确率增益因检索器能力与模型容量之间的相互作用而异,呈现非对称倒U型模式。
长时域搜索代理通过多次工具调用累积大量检索内容,使得上下文预算效率日益重要。一种最小干预是在轨迹推进过程中遮蔽上下文中的陈旧观察,但尚不清楚这种上下文管理形式何时以及为何有效。我们通过对多种代理骨干(参数规模从4B到284B)和三种检索器在离线与实时网页代理搜索基准上进行系统扫描,研究了观察遮蔽的效果。我们发现,当相对于模型在没有上下文管理时的准确率绘制时,遮蔽带来的准确率增益呈现非对称倒U型:在弱检索器下存在一个平台期,当强检索器与中等容量模型相遇时达到峰值,而当模型饱和时则急剧下降。这种模式反映了检索器召回率与模型隐式过滤能力之间的交互作用,而非任一因素的孤立影响。从机制上看,遮蔽实现了一种令牌-回合权衡:它移除了模型基本停止关注的观察,以及代理很少重新打开的页面。当新增回合能将失败转化为成功时,它们有所帮助;但当遮蔽移除了模型原本会使用的证据时,它们就会失败。因此,我们将上下文管理重新定位为一种依赖状态的干预,并为分析代理深度搜索中的上下文使用提供了整体视角。我们在此发布我们的脚手架和轨迹数据(https://github.com/i-DeepSearch/observation-masking),以支持未来研究。
查看 arXiv 页面(https://arxiv.org/abs/2606.00408)查看 PDF(https://arxiv.org/pdf/2606.00408)GitHub0(https://github.com/i-DeepSearch/observation-masking)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.00408)
引用此论文的模型0
无模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。
引用此论文的数据集1
i-DeepSearch/observation-masking-eval-logs 预览• 更新于37分钟前 • 548 • 1(https://huggingface.co/datasets/i-DeepSearch/observation-masking-eval-logs)
引用此论文的 Spaces0
无 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.00408 以从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加到收藏集以从此页面链接。
相似文章
长周期研究智能体的搜索纪律
本文识别了长周期研究智能体中的一种失败模式:优化聚合指标可能选出提升核心数字但破坏关键子群体(反转)的候选项。它提出了一种搜索纪律协议,该协议使用一个外部控制环路,基于候选项的分解行为而非得分进行审计。
学会记住什么:面向长时域语言代理的基于约束优化的可观测性安全记忆保留
本文将为长时域语言代理的记忆保留公式化为一个约束随机优化问题,提出了OSL-MR框架,该框架通过混合评分启发式强制实施可观测性安全学习。实验表明,在严格记忆预算下,该方法始终优于现有的启发式基线。
@omarsar0: // LLM 智能体中的记忆诅咒 //(建议收藏)过长的历史记录显然会导致智能体性能下降,因为它们变得越来越…
本研究论文揭示了 LLM 智能体中的“记忆诅咒”现象,证明扩大的上下文窗口会通过削弱前瞻性意图,系统性地破坏多智能体社会困境中的合作行为。作者表明,通过定向微调、合成记忆净化以及减少显式思维链(Chain-of-Thought)推理,可有效缓解此类行为衰退。
置信捷径:掩码扩散模型的一种推理失效模式
本文识别了掩码扩散语言模型中的一种失效模式:基于置信度的解码在复杂推理任务中导致高置信度错误,并表明置信对齐训练会加剧此问题,而随机掩码则能保持推理性能。
# 通过相关性匹配实现约束增强的物理搜索
本文提出了"约束增强物理搜索"原理:在探索过程中,时间相关性应与约束诱导的更新动力学中的空间相关性相匹配,并通过拔河赌博机模型加以验证。作者表明,高效搜索并非源于最大随机性,而是源于将时间相关性与将反馈转化为证据的物理更新尺度相匹配。