ScaffoldAgent: 基于效用引导的开放式深度研究动态大纲优化
摘要
ScaffoldAgent 提出了一个基于效用引导的动态大纲优化框架,用于开放式深度研究。通过扩展、收缩和修订操作,该框架改进了长文报告生成和事实依据的准确性。
arXiv:2606.20122v1 公告类型:新
摘要:开放式深度研究(OEDR)要求系统通过多轮检索获取知识,并生成连贯的长文报告。大纲作为结构性的框架,协调着检索、证据组织与生成过程,扮演着核心角色。然而,现有方法要么在写作前固定大纲,要么通过局部启发式方法改进大纲,这会导致在持续信息积累下出现框架偏移,并且对于评估大纲修改的反馈存在延迟。我们提出了 ScaffoldAgent,一种用于 OEDR 的基于效用引导的动态大纲优化框架。ScaffoldAgent 将大纲演变建模为一个结构化的决策过程,包括三种操作:扩展、收缩和修订,从而实现对报告框架的可控更新。该框架进一步引入了一种基于效用的反馈机制,通过检索增益、结构连贯性和试生成质量来估计每个大纲操作的后续价值。得到的效用信号指导了推理过程中的节点选择、操作调度和终止。在 DeepResearch Bench 和 DeepResearch Gym 上的实验表明,ScaffoldAgent 在长文报告生成和事实依据方面持续优于现有的深度研究代理。
查看缓存全文
缓存时间: 2026/06/20 14:35
# ScaffoldAgent:面向开放式深度研究的效用引导动态大纲优化 来源:https://arxiv.org/html/2606.20122 杨志邦1,2\*, 蒋新科1,2,3\*, 肖雨臻1,2,3\*, 张瑞哲1,2,3\*, 方悦1,2\*, 万新飞1, 宋正兴1, 刘宇轩1, 黄宇恒4, 楚旭2,3,5†, 赵俊峰2,3†, 王亚沙1,6† 1北京大学软件工程国家工程研究中心,北京,中国 2北京大学计算机学院,北京,中国 3高可信软件技术教育部重点实验室,北京,中国 4广电运通金融电子股份有限公司,广州,中国 5北京大学计算前沿研究中心,北京,中国 6北京大学信息技术研究院(天津滨海),天津,中国 \{yangzb, xinkejiang\}@stu\.pku\.edu\.cn, \{chu\_xu, zhaojf, wangyasha\}@pku\.edu\.cn ###### 摘要 开放式深度研究(OEDR)要求系统通过多轮检索获取知识,并生成长篇连贯报告。大纲作为协调检索、证据组织和生成的结构性框架,起着核心作用。然而,现有方法要么在写作前固定大纲,要么依赖局部启发式规则进行优化,这会导致在持续信息积累下出现框架漂移,且对大纲修改的评估反馈存在延迟。我们提出ScaffoldAgent,一种面向OEDR的效用引导动态大纲优化框架。ScaffoldAgent将大纲演化建模为包含三种操作的结构化决策过程:*扩展*、*收缩*和*修改*,从而实现对报告框架的可控更新。该框架进一步引入了一个效用引导的反馈机制,通过检索增益、结构一致性和试写质量来估算每个大纲操作的下游价值。由此产生的效用信号在推理过程中指导节点选择、操作调度和终止判定。在DeepResearch Bench和DeepResearch Gym上的实验表明,与现有深度研究智能体相比,ScaffoldAgent能够一致地改善长篇报告生成和事实依据质量。ScaffoldAgent:面向开放式深度研究的效用引导动态大纲优化 杨志邦1,2\*, 蒋新科1,2,3\*, 肖雨臻1,2,3\*, 张瑞哲1,2,3\*, 方悦1,2\*, 万新飞1, 宋正兴1, 刘宇轩1, 黄宇恒4, 楚旭2,3,5†, 赵俊峰2,3†, 王亚沙1,6† 1北京大学软件工程国家工程研究中心,北京,中国 2北京大学计算机学院,北京,中国 3高可信软件技术教育部重点实验室,北京,中国 4广电运通金融电子股份有限公司,广州,中国 5北京大学计算前沿研究中心,北京,中国 6北京大学信息技术研究院(天津滨海),天津,中国 \{yangzb, xinkejiang\}@stu\.pku\.edu\.cn, \{chu\_xu, zhaojf, wangyasha\}@pku\.edu\.cn 11footnotetext:同等贡献。22footnotetext:通讯作者。
## 1 引言
参考图注
图1:动态大纲优化中的挑战。C1:框架漂移。随着大纲随着新证据和新子主题不断更新,冗余分支、主题粒度不均以及章节定位错误可能逐渐累积。C2:延迟反馈。大纲修改无法立即获得反馈,因为其影响只有通过后续的检索和试写才能显现。
大型语言模型(LLM)已成为构建日益强大的语言智能体的关键基础(Bubeck et al., 2023 (https://arxiv.org/html/2606.20122#bib.bib3))。近期面向推理的模型(如DeepSeek-R1(Shao et al., 2024b (https://arxiv.org/html/2606.20122#bib.bib25))和OpenAI o系列(Jaech et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib10)))显著提升了LLM在结构化任务(包括数学推理和复杂问答)上的表现(Trinh et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib29))。超越单轮生成,工具增强的LLM(即智能体(Li et al., 2026 (https://arxiv.org/html/2606.20122#bib.bib17)))现在能够与外部环境交互,并执行迭代规划、搜索和自我修正(Jiang et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib11); Yao et al., 2022a (https://arxiv.org/html/2606.20122#bib.bib39); Zhang et al., 2026 (https://arxiv.org/html/2606.20122#bib.bib41); Shinn et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib27); Schick et al., 2023 (https://arxiv.org/html/2606.20122#bib.bib23))。这种智能体范式在软件工程(Jimenez et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib12))和开放世界网页导航(Zhou et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib42); Mialon et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib21))中展现出巨大潜力。然而,要求智能体通过多轮检索获取知识并将累积的证据综合成长篇连贯报告的开放式任务仍然具有挑战性。这些任务最近在开放式深度研究(OEDR)的框架下被研究(Li et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib18); Du et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib7)),不仅需要有效的信息查找和内容生成,还需要对不断演化的证据进行持续的内容组织。与执行固定计划以实现明确定义目标的面向任务的智能体(Jimenez et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib12); Mialon et al., 2024 (https://arxiv.org/html/2606.20122#bib.bib21))不同,OEDR围绕一个开放式的目标组织,其范围随着新证据的发现而演变。在每一轮中,系统必须检索新信息,将其与之前的推理相协调,并更新正在生成的报告的组织结构(Li et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib18), 2026 (https://arxiv.org/html/2606.20122#bib.bib17); Prabhakar et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib22))。在这个循环中,大纲不仅仅是一个写作前的计划,而是一个主动的结构性框架:它指导搜索什么,将证据索引到适当的章节下,并约束最终报告的生成(Shao et al., 2024a (https://arxiv.org/html/2606.20122#bib.bib24); Xiong et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib34); Wang et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib32))。然而,现有的深度研究系统仍然面临重大局限:随着报告长度和主题广度的增加,静态或维护不善的大纲可能会逐渐偏离演化的证据空间,导致覆盖冗余、视角缺失或章节组织不连贯。一条工作路线遵循“先计划后写作”的范式,即在报告生成开始前就固定大纲(Shao et al., 2024a (https://arxiv.org/html/2606.20122#bib.bib24); Lee et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib14); Han et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib9)),导致规划好的大纲与演化中的信息空间逐渐偏离(Xiong et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib34))。另一条工作路线引入了动态大纲更新机制,但主要依赖启发式规则或局部反馈(Wang et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib32); Shi et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib26); Chen et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib5); Wan et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib31)),缺乏一个统一考虑检索质量、结构合理性和生成质量的优化目标(Wu et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib33); Xiong et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib34)):例如,仅根据新检索到的文档(Li et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib32))或不会传播到当前步骤之外的信号(Wan et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib31); Chen et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib5))来更新大纲。这种局限性导致了两个核心挑战,如图1 (https://arxiv.org/html/2606.20122#S1.F1)所示。首先,如果没有对结构演化进行明确控制,迭代优化可能导致框架漂移:新检索到的证据可能触发冗余分支、主题粒度不均或子主题定位错误,逐渐破坏大纲的全局层次结构(C1)。其次,大纲修改的有用性很难在修改时确定。任何章节修改的价值可能只有经过后续检索和试写之后才会显现,导致对评估下游效用(C2)的反馈延迟。为了解决这些挑战,我们提出了ScaffoldAgent,一个面向开放式深度研究的效用引导动态大纲优化框架。ScaffoldAgent不把大纲当成固定的写作前计划,而是将其维护为一个不断演化的结构性框架,在研究过程中协调检索、证据组织和报告生成。为了缓解C1,ScaffoldAgent将大纲演化表述为包含三种明确操作的结构化决策过程:*扩展*、*收缩*和*修改*。受经典信念修正理论(Alchourrón et al., 1985 (https://arxiv.org/html/2606.20122#bib.bib1))的启发,这些操作允许系统在保持层次一致性的同时,纳入新信息、合并冗余分支并修正支持薄弱的章节。为了解决C2,ScaffoldAgent引入了效用引导的反馈机制,通过检索增益、结构一致性和试写质量来估算每个大纲修改的有用性。一个报告智能体在当前大纲下进行试写,其生成质量和引用依据提供下游反馈。由此产生的效用估计作为推理时的控制信号,指导节点选择、操作调度和终止判定,使ScaffoldAgent能够超越局部启发式优化,优化大纲演化。贡献如下: - •我们提出了ScaffoldAgent,一个效用引导的框架,将大纲视为演化的结构性框架,并通过明确的操作(包括*扩展*、*收缩*和*修改*)进行优化。 - •我们引入了效用引导的反馈机制,从检索、结构和生成方面评估大纲操作,实现对节点选择、操作调度和终止的推理时控制。 - •在DeepResearch Bench和DeepResearch Gym上的实验表明,ScaffoldAgent持续优于现有的深度研究智能体,验证了效用引导的大纲优化对于改善长篇报告生成和事实依据的有效性。
## 2 相关工作
### 2.1 开放式深度研究
开放式深度研究(OEDR)将有界问答扩展到长时间跨度的证据收集和有依据的报告综合,近期的基准对其进行了形式化(Du et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib7); Coelho et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib6))。基于工具增强的智能体和搜索增强的推理(Yao et al., 2022b (https://arxiv.org/html/2606.20122#bib.bib40); Trivedi et al., 2023 (https://arxiv.org/html/2606.20122#bib.bib30); Jin et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib13); Zhang et al., 2026 (https://arxiv.org/html/2606.20122#bib.bib41)),现有的OEDR系统探索了几个互补的方向。STORM和TTD-DR遵循基于计划或优化的流程,用于生成长篇研究报告(Shao et al., 2024a (https://arxiv.org/html/2606.20122#bib.bib24); Han et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib9))。WebWeaver和AgentCPM-Report进一步引入了动态大纲,将证据获取与报告写作连接起来,通过规划者-写作者协作或起草驱动的深化(Li et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib18), 2026 (https://arxiv.org/html/2606.20122#bib.bib17))。EDR、RhinoInsight和FS-Researcher从多智能体协作、行为/上下文控制和持久化外部记忆的角度增强了OEDR(Prabhakar et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib22); Lei et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib15); Zhu et al., 2026 (https://arxiv.org/html/2606.20122#bib.bib43))。虽然这些方法改进了检索、记忆、智能体协作或写作反馈,但大纲更新仍主要由固定流程、局部启发式或单阶段反馈驱动。它们没有将检索增益、结构一致性和试写质量统一为用于节点选择、操作调度和终止的单一效用信号。
### 2.2 报告生成
有依据的报告生成建立在检索增强和属性化生成的基础上,其中外部证据改进了事实性并支持引用感知的写作(Lewis et al., 2021 (https://arxiv.org/html/2606.20122#bib.bib16); Menick et al., 2022 (https://arxiv.org/html/2606.20122#bib.bib20); Gao et al., 2023 (https://arxiv.org/html/2606.20122#bib.bib8))。对于长篇报告生成,一个常见的解决方案是“先计划后写作”的范式,即首先构建大纲或高级报告计划,然后逐节生成内容以维持全局组织(Yao et al., 2019 (https://arxiv.org/html/2606.20122#bib.bib38); Yang et al., 2023 (https://arxiv.org/html/2606.20122#bib.bib36), 2022 (https://arxiv.org/html/2606.20122#bib.bib37); Bai et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib2); Wan et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib31))。更具适应性的方法进一步在扩展生成过程中更新大纲、记忆或任务图:DOME使用动态分层大纲并加内存增强,WriteHERE执行异构递归规划,而诸如SurveyGen-I和SciSage之类的综述生成系统则使用演化中的计划、记忆引导的写作或反思来改善跨节连贯性、覆盖范围和引用质量(Wang et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib32); Xiong et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib34); Chen et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib5); Shi et al., 2025 (https://arxiv.org/html/2606.20122#bib.bib26))。这些方法改进了长文档的结构和修订,但主要优化的是生成的文本或局部写作计划。
## 3 OEDR任务形式化
给定一个研究问题qq以及对大规模文档集合D\\mathcal\{D\}的访问权限,开放式深度研究(OEDR)的目标是生成一个结构连贯且引用充分的长篇报告。与一次性检索增强生成不同,OEDR要求系统迭代地搜索证据、组织获取的信息并综合最终报告。我们将OEDR视为三个组件之间的动态交互:*搜索*、*大纲*和*报告*。搜索从文档集合中检索外部证据;大纲将积累的证据组织成定义报告范围和结构的分层框架;报告则将组织好的证据转化为连贯的篇章文本。这些组件相互依赖:大纲决相似文章
@omarsar0: // 自我束具:能自我改进的束具 // (收藏这个)我们今天依赖的大多数智能体框架…
本文介绍了自我束具(Self-Harness),一种新的范式,其中基于LLM的智能体能够迭代地改进自身的操作束具——包括提示、工具和控制流程——无需人类工程师或更强大的外部智能体,在多个模型上取得了显著的性能提升。
ArcDeck:叙事驱动的论文到幻灯片生成
ArcDeck 是一个多智能体框架,通过话语树和迭代智能体优化来建模逻辑流程,从而从学术论文生成演示幻灯片,性能优于直接摘要方法。该论文还引入了 ArcBench,这是一个新的基准测试,用于评估论文到幻灯片生成,强调叙事连贯性和逻辑结构。
通过联合生成与评估实现自进化深度研究
来自香港科技大学、字节跳动和UCL的研究人员提出了SCORE——一种协同进化训练框架,将LLM同时训练为深度研究报告生成器和评估器,并通过元约束机制动态调整评估难度,防止奖励饱和。实验表明,该方法在开放式研究报告质量上取得了持续提升。
SAGE:基于智能体引导的随机提示优化
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
AgentSpec:通过受控组合理解具身智能体脚手架
介绍AgentSpec,一个模块化的规范框架,用于系统地组合和分析具身LLM智能体脚手架,揭示了性能取决于脚手架的兼容性和交互效应,而非孤立模块的强度。