@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive

X AI KOLs Timeline 2026/05/16 06:04 论文

摘要

DeepDive 提出了一种自动化方法，利用知识图谱进行数据合成和多轮强化学习，训练深度搜索代理，从而实现复杂的多步推理和网页浏览。

从知识图谱训练深度搜索代理 https://t.co/EgfeW3uJX0 https://t.co/kX5Wdusr7R

查看原文

查看缓存全文

缓存时间: 2026/05/16 15:19

使用知识图谱训练深度搜索智能体 https://t.co/EgfeW3uJX0 https://t.co/kX5Wdusr7R — # THUDM/DeepDive 来源: https://github.com/THUDM/DeepDive # DeepDive: 利用知识图谱与多轮强化学习推进深度搜索智能体 GitHub (https://github.com/THUDM/DeepDive) arXiv (https://arxiv.org/pdf/2509.10446) 数据集 (https://huggingface.co/datasets/zai-org/DeepDive) 模型 ## 🔥 最新消息 - [2025/10/02] 发布了完整的数据构建流水线——现已在仓库中完全可用。 - [2025/09/17] 问答对和SFT轨迹已完全开源，总计4,108条。在Hugging Face数据集DeepDive (https://huggingface.co/datasets/zai-org/DeepDive) 上查看。 - 模型和代码目前正在开发中——即将推出！ ## 概述 DeepDive 提出了一种自动化方法来训练深度搜索智能体，使其能够完成复杂、多步的信息检索任务。我们的方法将知识图谱的自动化数据合成与端到端的多轮强化学习相结合，创造出具备复杂长程推理和网络浏览能力的智能体。 ### 主要特性 - 自动化深度搜索数据合成：通过受控随机游走从知识图谱生成具有挑战性的问答对 - 用于浏览的多轮强化学习训练：面向深度搜索能力的端到端强化学习 - 测试时扩展：支持通过工具调用和并行采样进行扩展 ## 方法概述 ### 阶段1：从知识图谱自动化数据合成 我们提出了一种自动化方法，从开放知识图谱中合成复杂、困难且难以找到答案的问题。该过程包括三个关键步骤： 知识图谱随机游走：从起始节点 $v_0$ 出发，在图中进行 $k$ 步移动，形成路径 $P=[v_0, v_1, \ldots, v_k]$ ，其中每一步 $(v_i, v_{i+1})$ 都是图中的一条有效边。我们选择较长的路径长度（ $k > 5$ ）以增加推理复杂度。 实体模糊化：将路径中的每个节点 $v_i$ 与其对应属性结合，形成富含属性的路径： $P_A = [(v_0, [a_0^0, a_0^1, \ldots]), (v_1, [a_1^0, a_1^1, \ldots]), \ldots, (v_k, [a_k^0, a_k^1, \ldots])]$ 然后让大语言模型对整条路径上的信息进行模糊化处理，泛化具体细节，创建需要深度搜索才能解析的“模糊实体”。 难度过滤：我们使用前沿模型（GPT-4o）配合基础搜索，对每个问题尝试四次。只有在前沿模型所有尝试都失败的问题才被保留，确保高难度。 ### 阶段2：端到端多轮强化学习 我们应用端到端多轮强化学习来增强智能体的长程推理和浏览能力。训练过程遵循一个迭代循环：在第 $t$ 步，智能体生成思维链 $c_t$ ，执行浏览动作 $a_t$ ，并观察网页内容 $o_t$ 。 多轮GRPO训练：我们使用带有归一化优势的群体相对策略优化： $A_i = \frac{r_i - \text{mean}(\{r_k\}_{k=1}^G)}{\text{std}(\{r_k\}_{k=1}^G)}$ 严格的二元奖励：只有当格式正确性和答案准确性同时满足时，轨迹才获得奖励+1： $r(\mathcal{T}) = \begin{cases} 1, & (\forall i, \text{Format}(c_i, a_i)) \wedge \text{Judge}(a_{\text{eos}}, a^*) \\ 0, & \text{otherwise} \end{cases}$ 这种严格的奖励机制确保了高质量轨迹并防止奖励破解。 ## 模型 | 模型 | 参数 | HuggingFace Hub | 性能 (BrowseComp) | | –––––––– | ––––– | ————— | ———————— | | DeepDive-9B | 9B | 即将推出 | 6.3% | | DeepDive-32B | 32B | 即将推出 | 14.8% | ## 数据 合成数据集构建 我们的自动化数据合成流水线通过知识图谱随机游走、实体模糊化和难度过滤，创建具有挑战性的问答对。该过程使用多跳路径（k=5-9）遍历KILT和AMiner知识图谱。 | 组件 | 规模 | 说明 | | :—————–– | :–– | :—————————————————–– | | 总数据集 | 3,250 | 训练语料中的全部问答对 | | 监督微调部分 | 1,016 | 用于监督微调（SFT）的数据子集 | | ↳ 监督微调轨迹 | 858 | 通过拒绝采样从监督微调问答对中获得的搜索轨迹 | | 强化学习部分 | 2,234 | 用于强化学习（RL）的数据子集 | 数据示例 ## 结果 主要结果 我们在四个具有挑战性的深度搜索基准上评估DeepDive：BrowseComp、BrowseComp-ZH、Xbench-DeepSearch和SEAL-0。结果表明，与现有的开源模型相比，我们的方法取得了持续改进。 | 模型 | 推理 | 浏览 | BrowseComp | BrowseComp-ZH | Xbench-DeepSearch | SEAL-0 | | —————————— | —— | —— | ––––– | ———–– | —————– | –––– | | 专有模型 | | | | | | | | GPT-4o | ✗ | ✗ | 0.9* | 11.1 | 18.0* | 0.9 | | GPT-4o† | ✗ | ✓ | 1.9* | 12.8 | 30.0 | 9.1 | | Claude-3.7-Sonnet | ✗ | ✗ | 2.3 | 11.8 | 12.0 | 2.7 | | Claude-3.7-Sonnet† | ✗ | ✓ | 4.5 | 14.2 | 29.0 | 14.4 | | o1 | ✓ | ✗ | 9.9* | 29.1* | 38.0 | 11.7 | | o4-mini | ✓ | ✗ | 6.1* | 15.2* | 22.3* | 2.7 | | Claude-4-Sonnet-Thinking | ✓ | ✓ | 2.6 | 21.5 | 27.0 | 9.0 | | Claude-4-Sonnet-Thinking† | ✓ | ✗ | 14.7 | 30.8 | 53.0 | 37.8 | | Grok-DeepResearch | ✓ | ✓ | - | 12.9* | 50+ | - | | Doubao-DeepThink | ✓ | ✓ | - | 26.0* | 50+ | - | | DeepResearch | ✓ | ✓ | 51.5* | 42.9* | - | - | | 开源模型 | | | | | | | | GLM-Z1-9B-0414 | ✗ | ✗ | 0.6 | 2.4 | 8.0 | 7.2 | | GLM-Z1-9B-0414† | ✗ | ✓ | 0.6 | 1.7 | 3.0 | 2.7 | | Qwen2.5-32B-Instruct | ✗ | ✗ | 0.6 | 9.3 | 8.7* | 2.7 | | Qwen2.5-32B-Instruct† | ✗ | ✓ | 1.5 | 1.7 | 12.0 | 0.9 | | Qwen3-235B-A22B-Instruct-2507 | ✗ | ✗ | 0.9 | 17.6 | 17.0 | 6.3 | | Qwen3-235B-A22B-Instruct-2507† | ✗ | ✓ | 0.9 | 14.9 | 26.0 | 9.1 | | Qwen3-235B-A22B-Thinking-2507 | ✗ | ✗ | 3.1 | 20.1 | 22.0 | 9.0 | | Qwen3-235B-A22B-Thinking-2507† | ✗ | ✓ | 4.6 | 22.5 | 37.0 | 13.5 | | QwQ-32B | ✓ | ✗ | 1.7 | 13.5 | 10.7* | 5.4 | | QwQ-32B† | ✓ | ✓ | 1.3 | 14.5 | 27.0 | 4.5 | | DeepSeek-V3-0324 | ✗ | ✗ | 1.5 | 24.6 | 36.0 | 6.3 | | DeepSeek-R1 | ✓ | ✗ | 2.0 | 23.2 | 32.7* | 5.4 | | DeepSeek-R1-0528 | ✓ | ✗ | 3.2 | 28.7 | 37.0 | 5.4 | | GLM-4.5-Air | ✓ | ✓ | 21.3 | 36.3 | 65.0 | 30.6 | | GLM-4.5 | ✓ | ✓ | 26.4 | 37.5 | 68.0 | 36.0 | | 网络智能体 | | | | | | | | Search-o1-32B | ✓ | ✓ | 2.8* | 17.9* | 25.0* | - | | WebThinker-32B | ✓ | ✓ | 2.8* | 7.3* | 24.0* | - | | WebDancer-32B | ✓ | ✓ | 3.8* | 18.0* | 39.0* | - | | WebSailor-7B | ✓ | ✓ | 6.7* | 14.2* | 34.3* | - | | WebSailor-32B | ✓ | ✓ | 10.5* | 25.5* | 53.3* | - | | DeepDive (我们的) | | | | | | | | DeepDive-9B (仅sft) | ✓ | ✓ | 5.6 | 15.7 | 35.0 | 15.3 | | DeepDive-9B | ✓ | ✓ | 6.3 | 15.1 | 38.0 | 12.2 | | DeepDive-32B (仅sft) | ✓ | ✓ | 9.5 | 23.0 | 48.5 | 23.9 | | DeepDive-32B | ✓ | ✓ | 14.8 | 25.6 | 50.5 | 29.3 | > [!NOTE] > * 表示现有研究报告的性能。† 表示通过函数调用配备浏览功能。 在简单搜索任务上的泛化能力 我们不仅在挑战性搜索任务（如BrowseComp、BrowseComp-ZH）上评估DeepDive，还在更简单的基准测试如HotpotQA、Frames和WebWalker上进行了评估。DeepDive-32B（监督微调和强化学习）在所有基准上持续优于强基线，在WebWalker上取得超过60分，超越了WebShaper-72B（52.2）。这些结果表明DeepDive具备强大且可泛化的搜索能力。 ## 测试时扩展 DeepDive通过两种机制展示了卓越的测试时扩展能力： 工具调用扩展：在推理过程中允许DeepDive进行更多工具调用，可在复杂多步任务上获得更高准确率。如BrowseComp和BrowseComp-ZH基准测试结果所示： - 当最大工具调用次数增加时，准确率稳步上升。在BrowseComp上，性能从8次工具调用时的8%准确率提升到128次调用时的15%，表明模型从额外的搜索和推理机会中受益。 - DeepDive-32B始终优于其仅监督微调版本，尤其是在允许工具调用超过32次时。这表明强化学习阶段使模型能更好地利用长的工具调用范围。 并行采样：除了更大的工具调用预算，DeepDive还利用并行采样进一步提升性能。对于每个问题，DeepDive并行生成8条独立的推理轨迹。 - 考虑三种答案选择策略：单次推理、样本多数投票、以及选择提交前所需工具调用次数最少的答案。 - 实证分析揭示了一个明显趋势：更早提交且使用更少工具调用的答案通常更准确。在实践中，从8个样本中选择工具调用次数最少的答案，准确率从12.0%（单次）提升到24.8%，性能翻倍。多数投票也有帮助（18.8%准确率），但不如最少工具调用选择策略。 ## 附加研究：半自动化独立同分布深度搜索问答用于强化学习为了进一步提升深度搜索任务的性能，我们创建了一个半自动化框架来生成独立同分布（i.i.d.）问答对。使用i.i.d.数据进行训练带来了更显著的改进。32B强化学习模型在BrowseComp上达到了22.2%的准确率，从14.8%提升而来，在中文基准上也表现更佳。 | 模型 | 数据 | BrowseComp | BrowseComp-ZH | Xbench-DeepSearch | SEAL-0 | | :———–– | :—– | :——— | :———— | :–––––––– | :—–– | | 32B (仅sft) | KG | 9.5 | 23.0 | 48.5 | 23.9 | | 32B | KG | 14.8 | 25.6 | 50.5 | 29.3 | | 32B (仅sft) | i.i.d. | 11.4 | 26.6 | 47.5 | 22.5 | | 32B | i.i.d. | 22.2 | 33.9 | 56.0 | 23.0 | > [!NOTE] > 根据污染分析，KG数据与i.i.d.数据均被开源 > > > GLM-4.5 (https://z.ai/blog/glm-4.5) / GLM-4.6 (https://z.ai/blog/glm-4.6) 模型采用，这些模型在BrowseComp上展现出强劲性能。 ## 致谢 - 基于GLM-4 (https://github.com/THUDM/GLM-4) 和 QwQ (https://github.com/QwenLM/QwQ) 基础模型构建 - 使用Slime (https://github.com/THUDM/slime/) 框架进行强化学习训练 - 由Serper (https://serper.dev/) 和 Jina (https://jina.ai/) API提供网络访问支持 ## 引用如果您认为DeepDive对您的研究有帮助，请引用我们的论文： bibtex @misc{lu2025deepdiveadvancingdeepsearch, title={DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL}, author={Rui Lu and Zhenyu Hou and Zihan Wang and Hanchen Zhang and Xiao Liu and Yujiang Li and Shi Feng and Jie Tang and Yuxiao Dong}, year={2025}, eprint={2509.10446}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.10446}, }

@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive

相似文章

@DanKornas：DeepDive 是一种深度搜索代理的模式：从知识图谱合成问答，然后用……训练多轮浏览

@tom_doerr: 将项目转换为AI代理可导航的知识图谱 https://github.com/Muvon/octocode

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

DeepRefine：基于强化学习的智能体编译知识精炼

@tom_doerr: 用于数据分析、插件和网页浏览的AI智能体 https://github.com/xlang-ai/OpenAgents…

提交意见反馈