WRIT:面向多轮用户代理的写读密集型轨迹合成
摘要
本文提出WRIT,一种用于合成多轮代理训练轨迹的流水线,该流水线平衡了写密集型与读重复杂度。该方法生成多样化的任务和模拟,使小型模型能够以更低的推理成本实现强大性能。
arXiv:2606.02908v1 公告类型:新内容
摘要:多轮用户面向代理必须从不完整的请求中推断用户意图,通过对话和工具收集缺失信息,并执行有效动作。训练轨迹将此过程记录为用户消息、代理响应、工具调用等的交错序列。合成足够复杂的轨迹已成为训练代理的核心途径:现有流水线通常通过将多个用户请求组合成更长的任务来提高难度,产生训练顺序执行的写密集型轨迹。
我们认为,当代理在参数变得可识别之前必须收集和比较大量读工具证据时,单个写决策本身可能很困难,这是写密集型数据单独无法解决的挑战。受此洞察启发,我们提出WRIT(\uline{W}rite-\uline{R}ead \uline{I}ntensive \uline{T}rajectory Synthesis,写-读密集型轨迹合成),一种沿两个复杂度轴合成多轮代理训练轨迹的流水线:任务中写决策的数量和每个决策的证据负担。WRIT首先生成写密集型和读重型任务。然后,它多样化用户行为指令以反映现实对话变化,最后在可执行环境中模拟代理-用户交互以生成完整的训练轨迹。所得数据不仅训练代理执行更长任务,还训练其在信息负载高的情况下进行稳健、基于证据的决策。仅有2K合成轨迹,基于WRIT训练的4B模型在$\tau^2$-bench上超越了GPT-5.1无思考模式,并显著减少了推理时的令牌使用量,表明紧凑的SFT数据可以将部分昂贵的测试时推理转化为高效的代理行为。
查看缓存全文
缓存时间: 2026/06/03 09:35
# 面向多轮用户交互型智能体的写-读密集型轨迹合成 来源:https://arxiv.org/html/2606.02908
###### 摘要
多轮用户交互型智能体必须从不完整的用户请求中推断意图,通过对话和工具收集缺失信息,并执行有效的操作。训练轨迹记录了整个过程,包含用户消息、智能体响应、工具调用等交错序列。合成足够复杂的轨迹已成为训练智能体的核心途径:现有流程通常通过将多个用户请求组合成更长的任务来增加难度,生成训练顺序执行的写密集型轨迹。我们认为,当智能体必须收集并比较大量读取工具的证据才能确认参数时,单个写入决策本身就可能很困难,这是仅靠写密集型数据无法应对的挑战。受此启发,我们提出WRIT(写-读密集型轨迹合成),这是一个沿两条复杂度轴合成多轮智能体训练轨迹的流程:任务中写入决策的数量和每个决策的证据负担。WRIT首先生成写密集型和高读取负担任务,然后通过多样化用户行为指令来反映真实的对话变化,最后在可执行环境中模拟智能体-用户交互,生成完整的训练轨迹。由此产生的数据不仅训练智能体执行更长的任务,还训练其在信息负载极高的条件下进行稳健、基于证据的决策。仅使用2K合成轨迹,基于WRIT训练的4B模型就在τ²-bench上超越了GPT-5.1的无思考模式,并大幅减少了推理时的令牌消耗,这表明紧凑的监督微调数据可以将部分昂贵的测试时推理转化为高效的智能体行为。
| 写入动作 | 理由 | 工具调用 |
| --- | --- | --- |
| `book_reservation(user_id="emma_johnson_7098", origin="EWR", destination="IAH", flight_type="one_way", cabin="business", flights=[{date="2024-05-25", flight_number="HAT188"}], ...)` | | |
| **简单任务:** “我需要预订5月25日从纽瓦克到休斯顿的单程商务舱机票。请预订早上8点起飞、上午11点30分到达的直飞航班。” | 1次 get_user_details 1次 search_direct_flight 1次 book_reservation | |
| **高读取负担任务:** “我需要预订从纽约地区到休斯顿的单程商务舱机票。我可以在5月25日至26日之间灵活安排,可以从纽瓦克或拉瓜迪亚出发。请预订整体最快的航班。” | 1次 get_user_details 4次 search_direct_flight 4次 search_onestop_flight 1次 book_reservation | |
表1:一个简单任务和一个高读取负担任务可能共享相同的金标准写入动作,但确定其参数所需的读取证据量不同。简单任务在写入动作前使用了2次读取工具调用,而高读取负担任务在执行相同的预订动作前使用了9次读取工具调用。读取工具以蓝色显示,写入工具以橙色显示。
## 1 引言
配备工具的语言智能体正成为自动化面向用户工作流程的实用接口,从预订航班到更改预订和处理退货(Lu等人,2024;Drouin等人,2024;Wang等人,2025;Fang等人,2025;Barres等人,2025;Qian等人,2025;Cheng等人,2025;Qin等人,2025)。在这些多轮设置中,智能体必须推断不完整或不断演变的用户意图,提出澄清问题,读取外部记录,遵循领域策略,并执行有效的状态更改动作(Lu等人,2024;Zhao等人,2025;Rana等人,2025;Burdisso等人,2025;Zhang等人,2024)。训练轨迹记录了整个过程,包含用户消息、智能体响应、工具调用和工具观察结果的交错序列。因此,高质量轨迹是指导智能体何时提问、何时读取、调用哪个工具、信任哪些证据以及何时可以安全写入的监督信号(Zeng等人,2025;Xu等人,2025;Gao等人,2026)。由于从人类收集此类轨迹成本高昂,合成轨迹生成已成为训练工具使用智能体的核心途径。现有工作遵循几种路线:可执行模拟流程在用户和智能体模型之间展开交互(Prabhakar等人,2026;Chen等人,2026;Wang等人,2026);LLM驱动的流程在不具备完整后端的情况下合成轨迹或模拟环境反馈(Li等人,2025);以及环境扩展方法构建大量可从其中收集轨迹的工具使用环境(Fang等人,2025)。这些方法共同扩展了训练数据的数量和多样性,并提升了多轮工具使用智能体的基准性能。大多数现有合成流程通过将多个用户请求或状态更改动作组合成更长的任务来增加复杂性。这训练了智能体的多步骤执行、顺序决策和长程稳定性。然而,这些流程主要教导智能体做更多事情,而忽略了在任何动作执行之前就存在的困难。在现实服务场景中,困难部分通常在于收集和比较足够的读取工具证据,以确定动作应携带的参数。用户很少提供所有必要的标识符;相反,他们表达偏好和描述,让智能体在提交状态更改之前进行广泛搜索。这引出了一个数据合成的新问题:除了教导智能体更长时间地行动,我们能否合成教导它们在行动前更仔细地阅读的轨迹?表1明确区分了这一点。两个任务共享相同的金标准写入动作`book_reservation(...)`,因此从写入动作的角度来看,它们是相同的。区别在于智能体在写入前必须做什么。在简单任务中,用户通过出发和到达时间指定了目标航班,因此一次本地搜索就足够了。在高读取负担任务中,用户要求跨多个日期和出发机场的整体最快航班,因此智能体必须搜索每个机场-日期组合,比较所有返回的候选结果,并恢复正确的`flight_number`;读取工具计数从2次增加到9次。仅经过浅层查找训练的智能体可能会在此类请求上失败,因为它从未学会规划广泛搜索、整合证据以及延迟提交直至参数被确认。因此,高读取负担轨迹是一种结构上截然不同的训练复杂性形式。
受此观察启发,我们提出WRIT(写-读密集型轨迹合成),这是一个合成训练轨迹的流程,涵盖了动作执行和证据密集型决策制定。首先,WRIT生成具有可验证正确结果的服务任务,涵盖具有多个顺序动作的任务(即写密集型)以及一个动作需要大量阅读和比较的任务(即读取密集型)。其次,WRIT改变用户表达和揭示相同请求的方式,使训练数据反映真实的对话行为,而不仅仅是合作、完全指定的交互。第三,WRIT在可执行环境中针对每个任务运行智能体和用户,并保留成功的交互作为完整的训练轨迹。图1总结了这一流程。
我们在τ²-bench上使用受控的2K轨迹训练预算,与强大的合成数据基线进行评估。
- • WRIT在所有三个测试模型(Qwen3-4B-Instruct-2507, Llama-3.1-8B-Instruct, Qwen2.5-14B-Instruct)上始终优于先前的轨迹合成方法,在高读取负担任务子集上尤其具有显著优势。
- • 仅使用2K WRIT轨迹训练的4B模型在τ²-bench上超越了GPT-5.1的无思考模式,并大幅缩小了与GPT-5.1思考模式的差距,同时在推理时使用的输出令牌更少。
- • 消融实验证实,高读取负担任务合成和用户行为多样化都独立地做出了贡献。
这些结果表明,一组小而精心构建的轨迹,平衡了写密集型和读取密集型复杂性,可以产生比更大但结构欠佳的数据集更强大、更可靠的智能体。合成数据不仅应教导智能体做更多事情,还应教导它们在行动前了解更多信息。
## 2 问题设置与设计原理
### 2.1 问题设置
我们考虑一个面向用户的操作领域,例如航空客户服务,其中智能体与用户交互,同时操作数据库、一组工具和领域策略规则(Yao等人,2024;Barres等人,2025)。工具包括读取工具,它们观察环境而不改变它,例如`search_direct_flight(origin, destination, date)`用于检索匹配的航班候选。它们还包括写入工具,它们更新环境状态,例如`book_reservation(user_id, origin, destination, flights, ...)`用于创建航班预订。领域策略规则约束写入工具何时可以使用,包括诸如“所有预订可以在预订后24小时内取消”之类的规则。任务指定了用户希望智能体完成什么以及正确结果是什么样的。我们将任务形式化为一个元组,包含用户请求`u`、初始数据库状态`$s_{\mathrm{init}}$`、金标准写入动作序列`$A_{\mathrm{gold}}$`和最终金标准数据库状态`$s_{\mathrm{gold}}$`。这里,`u`是自然语言目标,`$s_{\mathrm{init}}$`给出起始条件,`$A_{\mathrm{gold}}$`指定正确的状态更改动作,`$s_{\mathrm{gold}}$`是通过在沙盒环境中从`$s_{\mathrm{init}}$`执行`$A_{\mathrm{gold}}$`获得的。例如,对于预订任务,`$s_{\mathrm{gold}}$`是创建了正确预订后的数据库状态,任务成功是通过检查执行结果是否与`$s_{\mathrm{gold}}$`匹配来评估的。虽然任务定义了智能体必须做什么,但训练轨迹定义了智能体在实际对话中如何做。轨迹`τ`是通过模拟任务生成的完整多轮交互记录,在对话轮次中交织了用户消息、智能体响应、工具调用和工具观察结果。作为监督微调数据,轨迹教导智能体何时询问更多信息、调用哪个工具及其参数、如何解释工具输出以及何时执行写入动作。我们的流程首先合成任务,然后使用每个任务模拟一个轨迹,这使我们能够独立于轨迹的展开方式控制任务难度。
### 2.2 两轴轨迹复杂度
为了合成有用的训练轨迹,我们需要理解是什么使得写入决策对智能体变得困难。挑战不仅在于选择正确的写入工具,还在于从用户请求、对话上下文和工具观察结果中解析出正确的参数值;我们称此过程为**参数确认**。例如,为了预订正确的航班,智能体必须通过读取航班搜索结果来确定特定的`flight_number`,而不是被直接告知。因此,每个写入动作都是一个**决策点**:在向环境提交动作之前,智能体必须完全确认工具选择及其参数值。这种框架衍生出两种使智能体训练更难、更全面的独立方式。第一个轴是任务中写入决策的数量:增加它会产生**写入重负载轨迹**,训练智能体进行长程顺序决策。第二个轴是单个决策的证据负担:增加此轴会产生**高读取负担轨迹**,其中一个写入动作要求智能体在确认其参数之前收集并比较多个读取工具的输出。这第二个轴非常重要,且相对未被充分探索:没有高读取负担轨迹,仅基于简单决策训练的智能体可能会在单次查找后行动,并在真实用户的请求需要跨多个选项、日期或备选方案进行搜索才能执行任何有效写入时失败。因此,我们的合成目标是沿着这两个轴生成训练轨迹。写密集型和读取密集型轨迹共同教导智能体长程执行稳定性以及在信息负载极高条件下基于证据的确认。
请参见图注
图1:WRIT流程概述。
## 3 WRIT用于多轮智能体训练
根据这一目标,我们提出WRIT(写-读密集型轨迹合成),这是一个分三个阶段生成多轮智能体训练数据的流程。首先,WRIT合成具有已知正确结果的写-读密集型任务,涵盖写密集型服务请求和要求大量证据收集的高读取负担请求。其次,WRIT设计用户行为指令,以多样化用户在同一任务的不同轨迹中表达和揭示信息的方式,使训练数据反映真实的对话变化。第三,WRIT在可执行环境中针对每个任务和行为指令运行智能体和用户模拟器,收集成功的交互作为完整的监督微调轨迹。在此工作流程中,前两个阶段准备输入,即任务和行为指令,而最后阶段将它们转化为训练轨迹。
### 3.1 写-读密集型任务合成
WRIT首先合成任务,每个任务包含用户请求`u`、初始数据库状态`$s_{\mathrm{init}}$`、金标准写入动作序列`$A_{\mathrm{gold}}$`和最终金标准状态`$s_{\mathrm{gold}}$`。本小节完全专注于任务合成;将任务转化为轨迹的模拟将在后面的3.3节中介绍。我们通过以下两个分支来控制任务复杂度。
#### 3.1.1 写密集型任务合成
此分支合成覆盖领域核心写入操作的轨迹。每个轨迹训练智能体识别常见用户意图,遵循领域策略,并以正确确认的参数执行写入动作。我们分四个步骤描述该过程。
**步骤1:写入原型发现。** 合成从识别智能体应学习处理的流行写入操作和面向用户场景开始。我们使用LLM分析工具定义和领域策略规则,并自动导出一组操作原型:每个原型捕获相似文章
ISE:一种基于执行的面向多轮操作系统代理轨迹的合成方案
本文介绍了一种名为ISE的三阶段合成范式,用于生成带有基于执行的多轮操作系统代理轨迹,并证明在生成的ISE-Trace数据集上进行微调能显著提升代理在ClawEval上的性能。
DRIFT: 解耦轨迹展开与重要性加权微调以实现高效多轮优化
本文提出DRIFT框架,该框架结合离线轨迹与重要性加权监督微调,高效实现与强化学习相当的多轮交互学习性能。
TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。
StraTA:通过策略轨迹抽象激励智能体强化学习
StraTA 提出了面向长期任务 LLM 智能体的策略轨迹抽象方法,通过分层 GRPO 风格的 rollout、多样化策略采样和批判性自判断机制,在样本效率和最终性能上超越了前沿模型和先前 RL 基线。
Video2GUI:合成大规模交互轨迹以进行通用GUI智能体预训练
提出了Video2GUI,一个从无标签教学视频中自动提取GUI交互轨迹的框架,构建了包含12M条轨迹、覆盖1500+应用的WildGUI数据集。在该数据上进行预训练,在GUI定位和动作基准测试上提升了5-20%。