S1-DeepResearch：超越搜索，迈向真实世界的长周期研究代理

arXiv cs.AI 2026/06/16 04:00 论文

摘要

本文介绍了S1-DeepResearch-32B，这是一个开源模型及包含15K条轨迹的数据集，用于深度研究代理，通过联合建模信息获取、知识综合与规划，在20个基准测试中取得了最先进的性能。

arXiv:2606.15367v1 公告类型：新论文摘要：深度研究代理旨在通过长周期规划、证据收集、推理和报告生成来解决复杂的知识密集型任务。尽管近期搜索代理的进展在信息检索和答案验证方面展现了强大的能力，但大多数现有训练数据集仍以搜索为中心，主要关注封闭式问答和信息定位。因此，它们主要训练信息搜索行为，而对关键深度研究能力的覆盖有限，包括证据整合、知识综合、规划、文件理解和结构化报告生成。在这项工作中，我们提出了一个统一的轨迹构建范式，用于深度研究代理，该范式结合了封闭式问答和开放式探索。所提出的框架包括基于图的任務构成、代理轨迹生成和多维轨迹验证，能够可扩展地合成高质量的代理轨迹，涵盖长链复杂推理、深度研究指令遵循、报告撰写、文件理解与生成以及技能使用。与现有的搜索导向数据集相比，我们合成的轨迹更加强调知识综合、复杂推理和规划。S1-DeepResearch-32B在覆盖五个能力维度（包括复杂推理、指令遵循、报告生成、文件理解和技能使用）的20个基准测试中，与同等规模的开源模型相比，取得了最先进的性能。在几个具有挑战性的深度研究基准上，它的性能接近领先的专有前沿模型。这些结果凸显了联合建模信息获取、知识综合和面向规划的代理行为对于构建有效的深度研究代理的重要性。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:45

# 超越搜索，迈向现实世界的长周期研究智能体 来源：https://arxiv.org/html/2606.15367 ###### 摘要 深度研究智能体旨在通过长周期规划、证据收集、推理和报告生成，解决复杂的知识密集型任务。尽管近期搜索智能体的进展在信息检索和答案验证方面展现了强大的能力，但现有的大多数训练数据集仍以搜索为中心，主要关注闭合式问答和信息定位。因此，它们主要训练信息搜寻行为，而对关键深度研究能力的覆盖有限，包括证据整合、知识综合、规划与决策、文件理解以及结构化报告生成。在这项工作中，我们提出了一种统一的深度研究智能体轨迹构建范式，该范式结合了闭合式问答和开放式探索。所提出的框架包括基于图的任务构建、智能体轨迹推演和多维轨迹验证，能够可扩展地合成高质量的智能体轨迹，涵盖长链复杂推理、深度研究指令遵循、深度研究报告撰写、文件理解与生成以及技能使用。与现有的搜索导向数据集相比，我们合成的轨迹更强调知识综合、复杂推理以及规划与决策。S1-DeepResearch-32B 在覆盖五个能力维度的20个基准测试中，在同等规模的开源模型中达到了最先进的性能，这些维度包括复杂推理、深度研究指令遵循、报告生成、文件理解和技能使用。在几个具有挑战性的深度研究基准测试上，它接近了领先的专有前沿模型的性能。这些结果突显了联合建模信息获取、知识综合和规划导向的智能体行为对于构建有效的深度研究智能体的重要性。为了促进未来研究，我们发布了 S1-DeepResearch-32B 和 S1-DeepResearch-15K，后者是使用我们的框架构建的15K高质量智能体轨迹集合。参见图注 图1：五个深度研究能力维度的平均得分。## 引言 大语言模型（LLMs）正从静态文本生成扩展到现实环境中的智能体问题解决：模型不是回答单个问题，而是在长期的交互中进行规划、调用工具、收集证据，并根据反馈修正其行为（nakano2021webgpt; yao2023react; schick2023toolformer）。这一转变对于深度研究尤为重要，因为科学研究、行业分析和知识密集型工作流程通常涉及多阶段目标、异构源和复杂约束。这类任务需要长链复杂推理，以保持搜索、证据聚合、状态维护和结果生成的一致。因此，深度研究并不等同于深度搜索：后者侧重于为确定性答案定位和验证信息，而前者还需要为开放式目标构建分析框架、解决证据冲突，并产生可辩护、可引用、可交付的研究成果。最近关于长周期搜索智能体和开放式研究智能体的工作表明，可扩展的任务合成、工具增强的交互以及基于轨迹的后训练可以显著提高模型的信息搜寻和智能体推理能力（chu2026redsearcher; du2026openseeker; gao2025beyond; liu2025webexplorer; li2026openresearcher; hu2025stepdeepresearch; yao2026oresearcher; huang2026visiondeepresearch; yao2026mmdeepresearch）。然而，现有的大多数训练数据仍以搜索为中心，主要关注闭合式问答、信息定位和证据检索。这类数据可扩展且易于验证，但对关键深度研究能力的覆盖有限，包括证据整合、知识综合、规划与决策、文件理解以及结构化报告生成。我们认为，核心瓶颈在于缺乏既可扩展又忠实于真实深度研究的高质量智能体轨迹。闭合式问答提供了明确的正确性信号，并支持大规模合成和过滤，但它只捕捉了研究过程的一部分。开放式探索更接近真实的研究需求，其中目标可能未充分指定，证据可能不完整或相互冲突，可能存在多个有效输出；然而，这类任务难以合成、自动验证和控制。因此，一个有用的深度研究智能体数据构建范式必须将闭合式任务的可验证性与开放式探索的现实性结合起来。在本文中，我们介绍了 S1-DeepResearch，一个用于深度研究的智能体模型和数据框架。我们采用了一种统一的轨迹构建范式，该范式结合了闭合式问答和开放式探索，包括基于图的任务构建、智能体轨迹推演和多维轨迹验证。由此产生的轨迹覆盖了五个能力维度：长链复杂推理、深度研究指令遵循、深度研究报告撰写、文件理解与生成以及技能使用。与搜索导向的数据集相比，我们的轨迹更强调知识综合、复杂推理、规划与决策以及面向交付的生成。我们的贡献有三方面。首先，我们发布了 S1-DeepResearch-32B 和 S1-DeepResearch-15K¹¹¹数据集：https://huggingface.co/datasets/ScienceOne-AI/S1-DeepResearch-15k，后者是使用我们的框架构建的15K高质量智能体轨迹集合。其次，我们提出了一种可扩展的轨迹构建范式，通过结合闭合式问答和开放式探索，联合建模信息获取、知识综合和规划导向的智能体行为。第三，我们在覆盖五个能力维度的20个基准测试上进行了系统评估，其中 S1-DeepResearch-32B 在同等规模的开源模型中达到了最先进的性能，并在几个具有挑战性的深度研究基准测试上接近了领先的专有前沿模型。 ## 相关工作 ### 2.1 系统与工作流驱动的深度研究 一类深度研究工作通过明确的系统编排来完成复杂的研究任务。诸如 OpenAI Deep Research 和 Gemini Deep Research 等系统展示了这一路线在现实深度研究场景中的实用价值，其中模型为开放性问题进行多步规划、搜索、阅读、分析和引用支持的长篇报告生成（openai2025deepresearch; googledeepmind2026deepresearchmax）。类似地，MindDR（minddr2026technical）、AI-Researcher（tang2025airesearcher）和 AI-Scientist（lu2024aiscientist）尝试将任务分解、证据检索、实验执行和论文写作组织成多阶段或多智能体工作流。这些方法的意义在于，它们表明深度研究不仅仅是信息检索，而是一个涉及规划、证据收集、信息整合、工具执行和结果呈现的完整过程。相应地，近期的评估也已超越最终答案的准确性，转向完整研究产出的质量。DeepResearch Bench、DeepResearch Bench II 和 ResearchRubrics 通过长篇报告、专家评分标准、引用质量、事实依据和报告级推理来评估深度研究智能体（du2025deepresearchbench; li2026deepresearchbench2; sharma2025researchrubrics）；Vision-DeepResearch、VDR-Bench 和 MM-DeepResearch 进一步将基于搜索的推理扩展到视觉和文本证据（huang2026visiondeepresearch; zeng2026visiondeepresearchbenchmark; yao2026mmdeepresearch）。这些工作共同刻画了真实深度研究的任务形式：模型不仅要找到信息，还要处理多源材料、跨模态证据、引用约束和开放式的报告生成。然而，系统与工作流驱动的方法的能力在很大程度上依赖于外部模块、工具链、提示/工作流编排或多智能体协作。它们展示了复杂研究工作流应该完成什么，但底层模型是否获得了可迁移的原生研究能力并不总是明确。同时，开放性研究评估更好地反映了现实任务，但它们通常关注最终输出质量，而不是为模型训练提供完整的行为轨迹。因此，构建更原生的深度研究智能体需要进一步讨论如何将这些复杂的研究行为蒸馏成高质量数据，并内化为模型能力。 ### 2.2 深度研究的智能体模型 另一类工作旨在通过智能体训练，将规划、搜索、推理、工具使用和证据整合内化到模型本身。Tongyi-DeepResearch、Step-DeepResearch、O-Researcher、MiroThinker、REDSearcher、OpenSeeker、ASearcher、WebExplorer 和 OpenResearcher 从不同角度改进了长周期搜索和工具增强推理，包括智能体中期训练、SFT、RL、验证机制和轨迹合成（tongyi2025deepresearch; hu2025stepdeepresearch; yao2026oresearcher; miromind2026mirothinker; chu2026redsearcher; du2026openseeker; gao2025beyond; liu2025webexplorer; li2026openresearcher）。这些以模型为中心的智能体表明，高质量的轨迹和后训练可以显著提高原生的智能体能力，减少模型对外部工作流的依赖，以完成复杂的信息搜寻任务。智能体轨迹数据是这一方向的关键基础。早期关于工具使用和网络交互的工作表明，模型可以通过演示或合成轨迹学习调用外部工具、浏览网页，并根据观察更新后续动作（nakano2021webgpt; yao2023react; schick2023toolformer）。最近的长周期搜索轨迹进一步改进了多轮搜索、证据定位和路径规划。它们的优势在于可扩展性和可验证性：任务通常有相对确定的目标答案，轨迹质量可以通过答案正确性或检索到的证据进行过滤。然而，这也使得许多现有轨迹更接近提取式搜索，即模型从外部信息空间中定位、提取和验证已有事实。真实的深度研究更接近建设性探索，模型必须在开放式的目标、不完整的证据、冲突的来源和不断变化的约束下，组织分析框架、形成论证结构并生成可交付的成果。因此，尽管现有的以模型为中心的智能体已经表明，通过基于轨迹的训练可以提高长周期搜索和工具使用能力，但许多训练数据仍然以闭合式问答或可验证的搜索任务为中心，使其更适合信息定位和答案验证。同时，深度研究所需的复杂指令遵循、文件理解与生成以及技能使用，通常是在相对简短、封闭且特定任务的工作流中单独评估的（zhou2023instruction; jiang2024followbench; qin2024infobench; wen2024complexbenchmarking; qi2025agentif; li2026skillsbench; li2026agentskillos; han2026sweskillsbench）。相比之下，S1-DeepResearch-15K 旨在通过统一的轨迹数据同时覆盖闭合式问答和开放式探索，并进一步组织五个能力维度：长链复杂推理、深度研究指令遵循、深度研究报告撰写、文件理解与生成以及技能使用。这为下一节描述的数据构建方法提供了基础。 表1：深度研究模型中显式智能体能力覆盖的比较。能力覆盖是指相应技术报告或发布系统中明确支持、评估或描述的能力。报告的训练配方也包含在内以供参考。| 模型 | 能力覆盖 | 训练配方 || --- | --- | --- || | LHR-文本 | LHR-多模态 | 指令 | 报告 | 文档 | 技能 | 中期训练 | SFT | RL || Tongyi-DeepResearch | ✓ | ✗ | ✗ | ✗ | ✓ | ✗ | ✓ | ✓ | ✓ || OpenSeeker-v1 | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ || OpenResearcher | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✗ || MiroThinker-1.7 | ✓ | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | ✓ | ✓ || REDSearcher | ✓ | ✗ | ✗ | ✗ | ✓ | ✗ | ✓ | ✓ | ✓ || REDSearcher-MM | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ | ✓ || Skywork-R1V4 | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ | ✗ || Vision-DeepResearch | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ | ✗ | ✓ | ✓ || MM-DeepResearch | ✓ | ✓ | ✗ | ✗ | ✗ | ✗ | ✗ | ✓ | ✓ || UniScientist | ✓ | ✗ | ✗ | ✓ | ✓ | ✗ | ✗ | ✓ | ✗ || Step-DeepResearch | ✓ | ✗ | ✗ | ✓ | ✓ | ✗ | ✓ | ✓ | ✓ || S1-DeepResearch | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✗ | ✓ | ✗ |注：✓ 和 ✗ 表示能力是否被显式覆盖。对于训练配方，✓ 表示报告或使用了该阶段，✗ 表示未使用或未公开指定。LHR = 长周期推理；MM = 多模态；指令 = 深度研究指令遵循；文档 = 文档理解与生成；技能 = 动态技能编排。## 智能体数据构建系统 构建具有高复杂性和强可验证性的探索轨迹，对于使大语言模型（LLMs）获得深度研究能力至关重要。为此，我们设计了一个自动化的智能体数据构建系统，该系统模拟人类研究人员在解决复杂现实问题时的推理、探索和迭代精炼过程。通过精心设计的执行环境和多阶段过滤机制，我们的系统合成了具有高级工具使用、长上下文推理和逻辑一致决策轨迹特征的高质量训练数据。 ### 3.1 概述 如第2节（https://arxiv.org/html/2606.15367#S2）所述，现有的轨迹合成方法大多局限于提取式搜索，智能体主要执行信息检索和聚合。表1（https://arxiv.org/html/2606.15367#S2.T1）进一步从显式能力覆盖的角度总结了这一局限性。现有的深度研究模型通常专门针对长周期搜索和推理，而对现实深度研究场景中所需的其他能力（如细粒度指令遵循、报告生成、文档理解与生成以及动态技能编排）提供的系统支持有限。报告的训练配方也包含在内以供参考，因为一些专门的系统采用了额外的中期训练或强化学习阶段。基于这些观察，S1-DeepResearch 旨在构建一个统一的数据基础，将深度研究智能体扩展到以搜索为中心的任务范式之外。所提出的系统通过三个主要阶段合成跨多个深度研究能力的复杂且可验证的智能体轨迹，如图2（https://arxiv.org/html/2606.15367#S3.F2）所示。**阶段一：基于图的任务构建与复杂度演化。** 该阶段利用知识图中的连通子图作为结构化知识骨干，以自顶向下的方式构建复杂查询。在任务生成过程中，显式的研究约束（如所需信息源、输出格式和数量限制）被预先注入子图。为了防止模型仅凭其参数化知识解决任务而绕过工具使用（工具使用绕过），我们引入了一种基于参数化知识的过滤机制，以及基于图拓扑的复杂

S1-DeepResearch：超越搜索，迈向真实世界的长周期研究代理

相似文章

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

Mind DeepResearch 技术报告

DuMate-DeepResearch：一个可审计的多智能体系统，具备递归搜索与基于评分标准的推理

@DanKornas：复杂的研究型智能代理会很快变得杂乱：计划、搜索、RAG、代码执行、反馈和最终报告都需要整合在一起……

QUEST：通过全合成任务训练前沿深度研究智能体

提交意见反馈