SENTINEL:面向训练工具使用语言模型代理的失败驱动强化学习
摘要
本文介绍了SENTINEL,一个面向训练工具使用语言模型代理的失败驱动强化学习框架。它使用控制器-提议器-求解器循环,从失败轨迹中生成有针对性的训练任务,从而提升在基准测试上的性能。
arXiv:2606.12908v1 公告类型:新
摘要:语言模型代理通过多轮工具使用在解决现实任务方面越来越有效。然而,在实践中训练可靠的工具使用代理仍然具有挑战性。虽然强化学习提供了一种在线策略范式,通过代理自身的环境交互来改进代理,但其有效性在很大程度上取决于训练任务分布。当任务在训练前固定时,任务分布可能越来越与策略不断发展的能力不匹配,导致大量探索回合浪费在无信息的任务上。我们提出了SENTINEL,一种失败驱动强化学习框架,将求解器的探索失败转化为有针对性的训练任务。SENTINEL遵循控制器-提议器-求解器循环:控制器分析失败轨迹并总结重复的错误模式,提议器生成可执行任务来强调这些弱点,求解器在目标任务上训练。在Tau2-Bench Retail上使用Qwen3-4B-Thinking-2507,SENTINEL将Pass\^{}1从66.4提升至74.9,并在一系列Pass\^{}k指标上超越了一般合成任务上的强化学习。这些结果表明,模型失败为改进工具使用语言模型代理提供了有效且可扩展的目标训练信号。
查看缓存全文
缓存时间: 2026/06/12 08:51
# SENTINEL:面向训练工具使用语言模型代理的故障驱动强化学习 来源:https://arxiv.org/html/2606.12908 Ziyi Wang¹, Yuxuan Lu¹, Yimeng Zhang², Qun Liu², Chen Luo², Jiri Gesi², Hanqing Lu², Yisi Sang², Manling Li³, Jing Huang², Dakuo Wang¹ ¹东北大学,²独立研究员,³西北大学 ###### 摘要 语言模型代理通过多轮工具使用在解决现实任务方面越来越有效。然而,训练可靠的工具使用代理在实践中仍然具有挑战性。虽然强化学习提供了一种在策略范式,通过代理自身与环境交互来改进代理,但其有效性在很大程度上取决于训练任务分布。当任务在训练前固定时,任务分布可能逐渐与策略不断变化的能力不匹配,导致许多 rollout 花费在无信息量的任务上。我们提出 SENTINEL,一种故障驱动强化学习框架,将求解器的 rollout 故障转化为针对性的训练任务。SENTINEL 遵循控制器-提议器-求解器循环:控制器分析失败轨迹并总结重复错误模式,提议器生成强调这些弱点的可执行任务,求解器则在针对性任务上进行训练。在 Qwen3-4B-Thinking-2507 上的 Tau2-Bench Retail 上,SENTINEL 将 Pass^1 从 66.4 提升到 74.9,并在 Pass^k 指标上优于在通用合成任务上的强化学习。这些结果表明,模型故障为改进工具使用语言模型代理提供了一种有效且可扩展的针对性训练信号来源。 SENTINEL:面向训练工具使用语言模型代理的故障驱动强化学习 Ziyi Wang¹, Yuxuan Lu¹, Yimeng Zhang², Qun Liu², Chen Luo², Jiri Gesi², Hanqing Lu², Yisi Sang², Manling Li³, Jing Huang², Dakuo Wang¹ ¹东北大学,²独立研究员,³西北大学 ## 1 引言 参考图例图 1:故障驱动强化学习不使用可能与当前代理状态不匹配的广泛通用任务,而是利用失败轨迹识别具体的故障模式,并生成具有更聚焦学习信号的针对性训练任务。 大语言模型(LLM)代理通过调用外部工具(如 API、数据库和搜索引擎)来解决用户任务的潜力日益显现(Yao et al., 2022 (https://arxiv.org/html/2606.12908#bib.bib75); Schick et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib11); Patil et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib45))。工具使用能力是许多现实应用的核心,包括客户支持、预订管理、工作流自动化和软件工程(Yao et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib4); Barres et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib5); Bandi et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib77); Yang et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib90))。尽管取得了这些进展,训练可靠的工具使用模型仍然具有挑战性,因为代理必须学会选择正确的工具和参数,操作正确的记录,遵循多步骤流程,并遵守领域特定的策略。 训练工具使用代理的常用方法包括在合成轨迹和任务上进行监督微调或强化学习。监督微调提供了一种直接的方式,通过精心策划的演示来教导代理工具调用格式、任务流程和常见执行模式(Prabhakar et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib1); Wang et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib73))。然而,它本质上是离策略的:模型学习模仿由另一个策略生成的轨迹,而不是从其自身动作引发的状态中学习。强化学习提供了一种在策略训练范式(Qian et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib78); Li et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib80); Feng et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib86))。通过让策略模型与环境交互并生成其自己的工具调用轨迹,RL 可以在当前策略本身引发的状态、决策和错误上提供训练信号。然而,现有的 RL 方法大多依赖于训练前定义的静态训练任务集。因此,RL 的有效性很大程度上取决于这些任务是否暴露了当前策略能够有意义地学习的故障模式。如果任务太简单、太难、重复或与模型的实际弱点不匹配,RL 可能会浪费 rollout,或鼓励利用奖励或环境伪影的肤浅策略,而不是改进稳健的工具使用行为。随着模型的改进,这个问题变得更加突出,因为固定的任务集可能与其不断变化的弱点越来越不匹配。 这提出了一个重要问题:我们能否构建在训练过程中适应当前策略的 RL 训练任务?我们认为失败轨迹在诊断模型弱点和训练之间提供了实际的桥梁。它们揭示了当前策略尚未学习到的内容,包括错误的变量选择、缺失的步骤、不正确的工具调用顺序,或未能遵循领域策略。与一些主要围绕任务难度组织训练的自对弈课程学习方法不同(Zhao et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib16)),我们明确地围绕策略已诊断的工具使用故障模式来适应任务生成。我们不将失败仅仅视为评估错误,而是将其用作生成在策略训练数据的信号。这种视角引出了一个简单但强大的原则:工具使用代理可以从它们实际制造的失败中学习(图1 (https://arxiv.org/html/2606.12908#S1.F1))。 我们提出 SENTINEL,一个用于训练工具使用 LLM 代理的故障驱动强化学习流水线。SENTINEL 将训练组织为循环的控制器-提议器-求解器。控制器分析来自当前求解器策略的失败轨迹,并总结重复的错误模式。诊断出的弱点被转化为明确的生成指令。提议器然后合成新的、专门强调这些弱点的可执行任务。最后,求解器在针对性任务上进行强化学习,产生更新后的策略,其失败可以在下一次迭代中进行分析。这个循环使模型演化可控:系统可以检查模型失败的内容,指导接下来生成什么数据,并约束 RL 优化。 我们在 Tau2-Bench Retail 领域评估 SENTINEL(Yao et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib4); Barres et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib5)),其中代理必须在特定领域策略下通过多轮工具使用完成客户服务任务。使用 Qwen3-4B-Thinking-2507 模型,SENTINEL 实现了 Pass^1 从 66.4 提升到 74.9,并在 Pass^k 指标上优于在通用合成任务上的 RL。这些结果表明,模型故障是工具使用代理可扩展且有效的针对性训练信号来源。 我们的贡献包括:(1) 一个将故障诊断、任务生成和 RL 优化连接成闭环的工具使用代理框架。(2) 一种基于轨迹、感知故障的任务生成方法,该方法针对当前策略的弱点生成可执行任务。(3) 在 Tau2-Bench Retail 上的实证实验和分析,表明故障驱动 RL 能够提升工具使用性能。 ## 2 相关工作 ### 2.1 工具使用语言模型代理与基准 最近的工作将大语言模型从文本生成扩展到能够调用外部工具、查询 API、访问数据库以及在可执行环境中行动的交互式代理(Yao et al., 2022 (https://arxiv.org/html/2606.12908#bib.bib75); Schick et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib11); Patil et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib45))。例如,早期的代理框架如 ReAct 将推理轨迹与环境行动相结合,使模型能够根据工具观察更新其计划(Yao et al., 2022 (https://arxiv.org/html/2606.12908#bib.bib75))。工具学习方法进一步训练模型以决定何时调用工具、使用哪些工具、如何构建参数,以及如何在后续推理中使用返回的结果(Schick et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib11); Patil et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib45))。这些进展使工具使用代理在客户服务、预订管理和工作流自动化等实际应用中具有前景(Barres et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib5))。 为了评估模型的工具使用能力,先前的工作引入了一系列工具使用基准。APIBank (Li et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib15)), ToolBench (Qin et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib44)) 和 BFCL (Patil et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib45)) 专注于 API 选择、参数构建和可执行函数调用。最近的工作转向更现实的多轮环境。τ-Bench 系列 (Yao et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib4); Barres et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib5)) 在模拟客户服务环境中评估代理,其中模型必须与有状态工具交互,遵循领域策略,并在多轮对话中完成任务。最近的基于 MCP 的基准,包括 MCP-Bench (Wang et al., 2025c (https://arxiv.org/html/2606.12908#bib.bib82)), MCP-Atlas (Bandi et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib77)) 和 MCPMark (Wu et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib83)),进一步评估代理在现实工具使用环境中通过 MCP 服务器发现、选择和调用工具的能力。 ### 2.2 工具使用的合成数据生成 由于大规模人工标注的工具使用数据收集成本高昂,合成数据生成已成为训练工具使用代理的常见策略。早期通用指令微调工作表明,强教师模型可以大规模生成训练数据(Taori et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib24); Xu et al., 2024 (https://arxiv.org/html/2606.12908#bib.bib8))。在工具使用场景中,ToolAlpaca (Tang et al., 2023 (https://arxiv.org/html/2606.12908#bib.bib12)) 从工具描述生成工具调用演示,而 APIGen-MT (Prabhakar et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib1)) 在模拟环境中合成多轮工具使用数据。最近的工作进一步将合成数据生成扩展到更丰富的基于 MCP 的环境(Wang et al., 2025b (https://arxiv.org/html/2606.12908#bib.bib3); Xu et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib2); Bandi et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib77))。 合成工具使用数据的一个关键挑战是可验证性:生成的任务应对应于具有正确中间状态和结果的可执行工具调用路径。最近的一些方法通过从可执行轨迹开始而不是直接要求模型同时生成任务及其解决方案来解决这个问题。Trajectory2Task (Wang et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib73)) 首先构建有效的工具使用轨迹,然后将其转化为自然语言用户任务,确保每个任务状态可达,并能够构建复杂的用户场景。类似地,Firefly (Lu et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib89)) 通过首先探索真实 API,然后从观察到的工具使用结果向后生成任务,来合成经过验证的工具调用数据。这些合成数据生成方法为训练工具使用代理提供了宝贵的资源,但它们主要生成广泛的任务分布。在这些工作的基础上,我们的工作生成针对当前策略观察到的失败的针对性任务,使得训练分布能够适应模型的学习状态。 参考图例图 2:SENTINEL 为工具使用代理形成一个故障驱动的强化学习循环。控制器从 rollout 中发现故障模式,提议器将这些故障转化为针对性的训练任务,求解器通过 RL 优化得到改进。更新后的求解器再次进行 rollout,以暴露出新的弱点。 ### 2.3 代理型强化学习 代理型强化学习通过多步骤与可执行环境交互来训练语言模型代理,其中策略产生诸如工具调用之类的行动,观察环境反馈,并通过任务级或过程级奖励进行优化(Qian et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib78); Li et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib80); Feng et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib86))。与模仿由另一个策略生成的轨迹的监督微调相比,代理型 RL 允许模型从自身动作引发的状态和环境返回的反馈中学习(Li et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib80); Feng et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib86))。这使得它成为改进长程工具使用、多轮决策、状态跟踪和策略遵循的自然训练范式。 最近的工作已将代理型 RL 应用于一系列交互场景。对于工具使用代理,ToolRL 研究了工具选择和工具应用的奖励设计(Qian et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib78)),而 ToRL 和 ReTool 则训练模型在推理过程中调用计算工具(Li et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib80); Feng et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib86))。除了工具集成推理,RL 还用于网络和 GUI 代理(Qi et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib87)),以及在线购物和用户行为模拟(Liu et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib92));例如,Shop-R1 引入了分层奖励和难度感知缩放,用于购物环境中的动作预测(Zhang et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib59))。 尽管取得了这些进展,现有的代理型 RL 工作主要集中在策略优化和奖励设计上。一些方法研究如何构建更好的奖励信号,包括工具使用奖励、分层奖励和用于中间行动的逐步过程奖励(Qian et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib78); Zhang et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib59); Wang et al., 2025a (https://arxiv.org/html/2606.12908#bib.bib88))。另一条工作线探索自对弈或自演化训练,其中模型既充当任务生成器又充当求解器:它提出新任务,尝试解决它们,并使用由此产生的轨迹或反馈进行进一步训练(Zhao et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib84); Huang et al., 2025 (https://arxiv.org/html/2606.12908#bib.bib17); Zhou et al., 2026 (https://arxiv.org/html/2606.12908#bib.bib85))。虽然这些方法减少了对人工编写训练任务的依赖,但它们没有明确针对当前策略观察到的错误模式,并且生成的任务可能仍然存在弱可验证性或学习信号不稳定的问题。在这项工作中,我们使用来自当前策略的失败轨迹来明确诊断具体的故障模式,并为下一轮生成针对性的可执行任务。
相似文章
当证据稀疏时:对话与LLM-Agent轨迹中的弱监督早期故障预警
本文提出了一种两阶段方法,用于对话和LLM-Agent轨迹中的早期故障预警。该方法通过从轨迹标签中学习逐轮故障证据来解决证据稀疏的挑战,并使用基于注意力的预测器与偏好条件停止策略(α-STOP),以实现可控的准确率-及时性权衡。
结合自主评估的计算机操作代理强化学习
本文提出了一种面向计算机操作代理的强化学习框架,该框架利用自主视觉-语言评估作为可扩展的奖励信号,并对评估者噪声进行建模,以提高桌面环境中的任务成功率。
SEAL: 智能体与学习环境的协同共演化
SEAL提出了一个闭环框架,用于联合演化LLM智能体及其训练环境,利用诊断引导的标签对齐双方。仅用400个训练样本,它就在多轮工具使用任务上取得了显著提升,表现出更好的鲁棒性和分布外迁移能力。
@tli104: 新论文:"Self-Compacting Language Model Agents" 语言模型代理会构建冗长的推理和工具调用轨迹。随着轨…
新论文提出自压缩语言模型代理,该类代理可自行决定何时清理其推理和工具调用轨迹,以避免积累错误和过时信息。
通过失败轨迹进行基于策略的自我进化以实现智能体安全对齐
本文提出了 FATE,这是一种基于策略(on-policy)的框架,它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。