超越并行采样:面向智能体搜索的多样化查询初始化
摘要
本文识别了智能体搜索中的锚点坍塌现象,即并行轨迹因相似的初始查询而收敛,并提出了 DivInit,一种无需训练的方法,通过采样多样的初始查询来提升多跳问答的性能。
arXiv:2606.17209v1 公告类型:新
摘要:智能体搜索的测试时扩展通常增加深度(即每条轨迹的轮次和令牌数)或广度(即更多并行展开)。本文聚焦广度扩展,表明标准并行采样收益递减,原因在于首轮查询冗余。当模型在不同展开中发出相似的首轮查询时,各线程检索到重叠的证据,后续轮次便基于此共享检索。我们通过 DivInit 解决了这一局限,这是一种作用于首轮的无需训练的方法。DivInit 并非采样 k 个独立的首轮查询,而是从单次调用中抽取 n 个候选,挑选 k < n 个多样化种子,并作为并行轨迹运行。在五个开放权重模型和八个基准上,DivInit 在计算量相同时持续优于标准并行采样,多跳问答平均提升 5 到 7 个百分点。代码见 https://github.com/cxcscmu/diverse-query-initialization
查看缓存全文
缓存时间: 2026/06/17 05:35
# 超越并行采样:智能体搜索中的多样化查询初始化 来源:https://arxiv.org/html/2606.17209 Sidhaarth Muralia, João Coelhoa,b, Jingjie Ninga, João Magalhãesc, Bruno Martinsb, Chenyan Xionga a卡内基梅隆大学,美国 b里斯本大学高等技术学院与INESC-ID,葡萄牙 cNOVA LINCS,NOVA科学技术学院,葡萄牙 [email protected] ###### 摘要 智能体搜索中的测试时扩展通常增加深度(即每次轨迹的轮次和token数)或广度(即更多的并行展开)。本文聚焦广度扩展,发现标准并行采样带来的收益递减,并将其追溯至第一轮查询的冗余性。当模型在不同展开中发出相似的第一轮查询时,各线程检索到的证据大量重叠,后续轮次也基于这些共享的检索结果。我们通过DivInit解决此局限,这是一种无需训练的第一轮干预方法。DivInit不采样k个独立的第一轮查询,而是通过单次调用在温度τ下生成n个候选查询(n>k),然后通过MMR(Carbonell and Goldstein,1998)从集合C中选择k个。初始化选定集合S时选取对间距离最大的候选对,后续按以下方式添加:c⋆=argmax_{c∈C\S} [(1-λ) min_{s∈S} d_J(c,s) - λ d_J(c,q)],(1) 其中d_J是token级Jaccard距离,q是原始问题。当|S|=k时停止,每个选定候选运行一个线程。 #### 计算开销。共享池将标准采样的k次第一轮LLM调用合并为单次调用(一次解码生成n个候选),将k次预填充合并为一次,代价是输出更长。从第二轮开始,两种方法一致,因此总调用次数为1 + k(T-1),比标准采样的kT次少k-1次。 ## 5 实验设置 我们评估了五种开源模型:Qwen3(1.7B、4B、8B)(Yang et al.,2025) 和 Gemma3(4B、12B)(Kamath et al.,2025),全部通过vLLM (Kwon et al.,2023)本地部署。基准测试分为两组。第一组:多跳问答(HotpotQA、MuSiQue、2WikiMHQA、Bamboogle、FRAMES),智能体搜索本地Wiki18 BM25索引 (Jin et al.,2025)。第二组:更大模型也在开放网页推理任务(GAIA、HLE、WebWalker)上评估,通过SERPER (Serper,2025)搜索实时网络。每个基准测试采样500个问题,GAIA采用完整的103个问题的验证集。智能体运行T=8轮,k=4线程,温度τ=1.0。每次检索返回前10个文档的文本内容。对于DivInit(公式1),第一轮生成n=16个候选,MMR中设置λ=0。提示详见附录A.1。 多跳QA(Wiki18) | 开放网页推理(Serper) --- | --- | --- | --- | --- | --- | --- | --- | --- | --- HpQA | MuSi | 2Wiki | Bambo | FRAMES | Avg | GAIA | HLE | WebWalker | Avg Model | S | DI | S | DI | S | DI | S | DI | S | DI | S | DI | S | DI | S | DI | S | DI Qwen3-1.7B | 42.9 | 43.8 | 14.5 | 15.6 | 37.6 | 41.5 | 16.8 | 24.3 | 13.1 | 13.6 | 25.0±1.3 | **25.0±1.3** | 27.8±1.1 | **27.8±1.1** | - | - | - | - | - | - Qwen3-4B | 41.9 | 53.2 | 15.9 | 19.7 | 41.9 | 49.0 | 32.5 | 40.8 | 15.5 | 20.4 | 29.5±1.0 | **29.5±1.0** | 36.6±1.3 | **36.6±1.3** | 22.7 | 27.8 | 9.7 | 14.3 | 38.7 | 44.9 | 23.7±1.6 | **23.7±1.6** | 29.0±2.7 | **29.0±2.7** Qwen3-8B | 50.4 | 57.0 | 23.9 | 29.7 | 46.3 | 55.1 | 47.7 | 57.6 | 24.8 | 30.8 | 38.6±1.2 | **38.6±1.2** | 46.0±1.3 | **46.0±1.3** | 26.0 | 30.2 | 10.0 | 14.1 | 41.6 | 46.8 | 25.2±0.8 | **25.2±0.8** | 28.2±2.6 | **28.2±2.6** Gemma3-4B | 40.0 | 49.2 | 17.2 | 16.1 | 42.8 | 52.2 | 27.7 | 37.9 | 12.3 | 14.7 | 28.0±1.0 | **28.0±1.0** | 34.0±1.1 | **34.0±1.1** | - | - | - | - | - | - Gemma3-12B | 54.9 | 59.1 | 31.6 | 36.1 | 52.0 | 53.9 | 55.7 | 64.3 | 31.0 | 37.5 | 45.0±1.1 | **45.0±1.1** | 50.2±0.9 | **50.2±0.9** | 34.0 | 35.0 | 12.7 | 14.8 | 38.0 | 45.2 | 28.2±2.2 | **28.2±2.2** | 31.6±1.4 | **31.6±1.4** 表1:Pass@4(%)结果,基于3个种子的均值(仅在组平均值上报告标准差)。每数据集列显示标准并行采样(S)与DivInit(DI)。左:本地Wiki18索引上的多跳QA。右:通过SERPER的开放网页推理。 ## 6 实验 本节测量DivInit相对于标准并行采样的实证增益,并分析驱动这些增益的查询级模式。 图3:不同τ下标准并行采样的Pass@4(Qwen3-8B,k=4),DivInit在τ=1.0作为参考。更高的温度改善了基线,但未能缩小差距。 ### 6.1 实证结果 表1比较了DivInit与标准并行采样在固定token预算下的表现。结果显示DivInit几乎在所有单元格上都有提升。在开放网页组中,WebWalker带来了最大的改进(所有三个模型提升6-7个百分点)。虽然表格显示pass@4,但结果在k=8时也成立(附录B.2的图5和图6),并且延续到AggAgent (Lee et al.,2026)下的pass@1聚合(附录B.3)。DivInit仅在第一轮与标准并行扩展策略不同。两者在时钟时间上的比较见附录B.4。结果还显示提升随模型规模增大而增加。Qwen3模型平均值从1.7B的Δ=2.8增加到8B的Δ=7.4。值得注意的是,1.7B的数字表明存在容量下限,低于该下限查询多样化带来的收益有限。图3扫描了标准并行采样的τ∈{0.5,1.0,1.5,2.0},DivInit在τ=1.0作为参考。性能通常随温度升高而改善,但在DivInit以下饱和,证实采样噪声不能替代显式的多样性选择。 ### 6.2 定性分析 图4:第一轮QPD分布(左)和每个问题的第一轮QPD与ATD(右),Qwen3-8B,k=4。DivInit将查询推向高多样性,这种分离在所有轮次中持续。 图4显示标准并行采样将第一轮查询集中在较低的QPD值附近(≈0.2),而DivInit将其推向高多样性(≈0.85)。为了测试这种分离是否在第一轮之后持续,我们测量了跨线程距离(ATD),即所有轮次中不同线程查询之间token级Jaccard距离的平均成对值。第一轮QPD较高的问题往往具有较高的ATD,两种条件下均呈正相关(ρ_std=0.42,ρ_DivInit=0.35)。这进一步证实第一轮检索充当轨迹锚点,即一旦线程早期检索到不同的证据,后续推理和搜索就能保持分离,无需额外干预。附录B.2的图7和图8展示了这一模式在所有基准和模型上的完整网格。 ### 6.3 消融实验 #### 多样化程度。DivInit仅在第一轮应用池选择。使用Qwen3-8B,将其扩展到第一轮到第N轮,N∈{1,...,8},在开放网页基准上没有产生增益(表2)。这与§6.2的观察一致,即早期轨迹分离持续到后续检索轮次,无需额外干预。 #### 多样性策略。DivInit从n个候选池中通过MMR(λ=0)选择k个查询,以最大化选定集合中的最小成对距离。在GAIA上使用Qwen3-8B,得分为34.0 pass@4。设置λ∈{0.5,0.75}会增加每个候选与原始问题相似性的权重,性能降至30-31,表明LLM生成的池已经与主题相关。从同一池中均匀随机选择得分为27.2,低于所有MMR变体。 表2:Pass@4(%)结果,当DivInit池选择扩展到第一轮到第N轮时。 ## 7 结论与未来工作 我们识别出锚点坍塌是智能体搜索系统中标准并行采样的一种失败模式:k个线程收敛到几乎相同的第一轮查询,检索重叠的证据,并以相关方式失败。我们还提出了DivInit作为一种无需训练的修复方法,在运行任何线程之前过采样一个共享候选查询池并选择最大多样性的子集。在五个开源模型和八个基准测试中,DivInit干预在匹配计算量下优于标准并行采样,多跳QA提升5-7个百分点。结果表明标准广度扩展通过将展开预算分配给相关轨迹而未能充分利用推理时计算。同样的问题可能在RL训练中出现:在基于组的方法(如GRPO)中,近乎相同的搜索轨迹产生低方差的展开组和弱学习信号 (Singh et al.,2026; Anonymous,2026)。在组形成之前多样化轨迹初始化是自然的下一步。另一个互补方向是聚合。DivInit最大化线程池多样性但报告pass@k,而利用池的结构多样性产生单一答案仍是开放问题。 ## 局限性 Pass@k指标对应线程池能够实现的上限,而非系统在实际部署中产生的单一答案的准确性。我们还在附录B.3中报告了AggAgent (Lee et al.,2026)下的单一答案准确性,发现多样化增益可以转移到pass@1,但缩小与pass@k之间的差距仍是开放问题。本文针对搜索智能体描述了锚点坍塌,其中第一轮决策是查询字符串,其下游效果通过检索到的文档可观察。其他领域(如工具使用和代码)是否出现相同的失败模式不在本文讨论范围内。 ## 伦理考量 所有评估数据集和预训练模型均公开用于研究。我们将提供能复现结果的源代码。通过使用大型预训练语言模型,我们承认模型内嵌的固有偏见,这些偏见可能延续或放大训练数据中存在的社会偏见。 ## 参考文献 - *Effective Reinforcement Learning for Agentic Search by Recycling Zero-Variance Queries During Later Training*. Under review. Cited by: §2, §7. - B. Brown, J. Juravsky, R. Ehrlich, R. Clark, Q. V. Le, C. Ré, and A. Mirhoseini (2024) *Large Language Monkeys: Scaling Inference Compute with Repeated Sampling*. arXiv preprint arXiv:2407.21787. Cited by: §1. - J. Carbonell and J. Goldstein (1998) *The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries*. In International Conference on Research and Development in Information Retrieval (SIGIR), Cited by: §1, §2, §4. - L. Chen, G. Zhang, and H. Zhou (2018) *Fast Greedy MAP Inference for Determinantal Point Process to Improve Recommendation Diversity*. In Annual Conference on Neural Information Processing Systems (NeurIPS), Cited by: §2. - M. Chen et al. (2025) *ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning*. arXiv preprint arXiv:2503.19470. Cited by: §2. - K. Cobbe, V. Kosaraju, M. Bavarian, et al. (2021) *Training Verifiers to Solve Math Word Problems*. arXiv preprint arXiv:2110.14168. Cited by: §1, §2. - A. Holtzman, J. Buys, L. Du, M. Forbes, and Y. Choi (2020) *The Curious Case of Neural Text Degeneration*. International Conference on Learning Representations (ICLR). Cited by: §2. - B. Jin et al. (2025) *Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning*. arXiv preprint arXiv:2503.09516. Cited by: §2. - J. Jin, Y. Zhu, Z. Dou, G. Dong, X. Yang, C. Zhang, T. Zhao, Z. Yang, and J. Wen (2025) *FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research*. In International Conference on World Wide Web (WWW), Cited by: §5. - A. Kamath et al. (2025) *Gemma 3 Technical Report*. arXiv preprint arXiv:2503.19786. Cited by: §5. - A. Kulesza and B. Taskar (2012) *Determinantal Point Processes for Machine Learning*. Foundations and Trends in Machine Learning 5(2-3). Cited by: §2. - W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. Gonzalez, H. Zhang, and I. Stoica (2023) *Efficient Memory Management for Large Language Model Serving with PagedAttention*. In Symposium on Operating Systems Principles, Cited by: §5. - Y. Lee, H. Yen, X. Ye, and D. Chen (2026) *Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks*. arXiv preprint arXiv:2604.11753. Cited by: §B.3, §2, §6.1, Limitations. - X. Li, R. Ming, P. Setlur, A. Paladugu, A. Tang, H. Kang, S. Shao, R. Jin, and C. Xiong (2026) *Benchmark Test-time Scaling of General LLM Agents*. arXiv preprint arXiv:2602.18998. Cited by: §B.3, §1, §3. - X. Li et al. (2025) *Search-o1: Agentic Search-Enhanced Large Reasoning Models*. arXiv preprint arXiv:2501.05366. Cited by: §1. - H. Lightman, V. Kosaraju, Y. Burda, H. Edwards, B. Baker, T. Lee, J. Leike, J. Schulman, I. Sutskever, and K. Cobbe (2023) *Let’s Verify Step by Step*. arXiv preprint arXiv:2305.20050. Cited by: §2. - G. Mialon, C. Fourrier, T. W
相似文章
通过并行搜索与显式合并扩展检索增强推理
介绍了MultiSearch,一种基于强化学习的框架,该框架在每一步推理中生成多个查询,并显式合并检索到的信息,以提高问答任务中的信噪比和推理准确性。
SPADER:多答案问答中的逐步同行优势与多样性感知探索奖励
本文介绍了SPADER,一个用于多答案问答的强化学习框架,它使用逐步同行优势进行信用分配,并采用多样性感知探索奖励来提高长尾实体的召回率,在多个基准测试上取得了更好的性能。
@dair_ai:关于自主搜索与向量搜索的精彩论文。
本文讨论并比较了自主搜索与向量搜索方法。
AMATA:面向知识密集型问答的自适应多智能体轨迹对齐框架
提出AMATA,一种用于知识密集型问答的多智能体轨迹对齐框架,通过引入轨迹内偏好学习和智能体间依赖学习,提升事实依据和可解释性,在五个基准测试中优于基线方法。
超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索
论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。