ISE:一种基于执行的面向多轮操作系统代理轨迹的合成方案
摘要
本文介绍了一种名为ISE的三阶段合成范式,用于生成带有基于执行的多轮操作系统代理轨迹,并证明在生成的ISE-Trace数据集上进行微调能显著提升代理在ClawEval上的性能。
arXiv:2606.11520v1 Announce Type: new
摘要:训练强大的操作系统代理需要能够同时捕捉结构化用户意图、多轮任务委派和基于执行工具调用的数据——这些特性是现有数据集所缺乏的。我们提出ISE(意图→模拟→执行),一种联合解决这些缺失的三阶段合成范式。第一阶段通过4D框架(人物×领域×任务×复杂度)构建约50000个结构化意图;去重后包含43956个独特意图,并在mpnet-base-v2嵌入(余弦核,q=1)上对整个池达到61.57的Vendi分数。第二阶段通过角色锁定的用户模拟器驱动多轮用户-代理交互,该模拟器将每一轮用户交互基于实际执行结果,生成23132条完整轨迹,平均每轨迹8.12个用户轮次和68.24个总对话轮次。第三阶段在实时、隔离的操作系统工作区中执行每个工具调用,生成真实的故障恢复动态,而非模拟响应。在ISETrace上进行微调后,使用Qwen3-8B在标准协议下进行代理工具使用任务,ClawEval pass@1从19.3提升至37.7。该结果超越了零样本的GPT-4o和大了四倍的Qwen3-32B基础模型。对第二阶段的消融实验证明多轮模拟带来了大部分性能提升。我们在https://github.com/Valiere01/ISE-Trace上发布所有源代码和数据集。
查看缓存全文
缓存时间: 2026/06/11 13:38
# 执行锚定的多轮操作系统Agent轨迹生成方法
来源:https://arxiv.org/html/2606.11520
Siyuan Luo Nairong Zheng Lin Zhou†Tiankuo Yao†Shengyou Yuan† Haojia YuCong PangJiapeng LuoLewei Lu\*
###### 摘要
训练有能力的操作系统Agent需要能够同时捕捉结构化用户意图、多轮任务委派和执行工具执行结果的数据——现有数据集均不具备这些特性。我们提出ISE\(意图→\\mst@varfam@dot\\mst@varfam@slash\\rightarrow模拟→\\mst@varfam@dot\\mst@varfam@slash\\rightarrow执行\),一种三阶段合成范式,联合解决这些不足。
第一阶段通过4D框架(人物×\\mst@varfam@dot\\mst@varfam@slash\\times领域×\\mst@varfam@dot\\mst@varfam@slash\\times任务×\\mst@varfam@dot\\mst@varfam@slash\\times复杂度)构建约∼\\mst@varfam@dot\\mst@varfam@slash\\sim50,000个结构化意图;去重后得到43,956\\mst@varfam@dot\\mst@varfam@slash 43\{,\}956个唯一意图,在mpnet-base-v2嵌入(余弦核,q=1\\mst@varfam@dot\\mst@varfam@slash\{\\mst@q\}\{=\}1)上对*整个*意图池的Vendi分数为61.57\\mst@varfam@dot\\mst@varfam@slash 61\.57。第二阶段通过角色锁定的用户模拟器驱动多轮用户-Agent交互,将每轮用户输入锚定在实际执行结果上,生成23,132条完整轨迹,平均每轨迹8.12个用户轮次和68.24个对话总轮次。第三阶段在实时、隔离的操作系统工作空间中执行每一次工具调用,产生真实的失败-恢复动态,而非模拟反馈。
在ISETrace上微调将ClawEval pass@1从19.3提升至Qwen3-8B的37.7(Agent工具使用任务,公共分母协议),超越了GPT-4o零样本参考和规模大4×\\mst@varfam@dot\\mst@varfam@slash 4\\times倍的Qwen3-32B基座;第二阶段消融实验表明多轮模拟贡献了大部分的提升。我们在https://github.com/Valiere01/ISE-Trace开源所有代码和数据。
间距=非法语 –
ISE:面向多轮操作系统Agent轨迹的执行锚定方法
Siyuan Luo Nairong Zheng Lin Zhou†Tiankuo Yao†Shengyou Yuan†Haojia YuCong PangJiapeng LuoLewei Lu\*
†††核心贡献者。
\*通讯作者。## 1 引言
大语言模型Agent越来越多地部署在带状态的操作系统环境中,但用于训练它们的数据仍然未能充分体现真实使用的四个特性:用户意图隐含且规定不足,操作有外部副作用,用户会对部分进展和失败做出反应,成功完成往往只能通过环境状态来验证。尽管大语言模型取得了快速进展,Agent在超过半数的现实多轮操作系统任务上仍然失败(Yao et al., 2024 (https://arxiv.org/html/2606.11520#bib.bib25)),瓶颈不在于模型容量——而在于训练数据。
仔细观察当前的数据合成流程,会发现三个系统性的结构性缺口。**缺口1(意图优先偏差)**:大多数流程从可用的API或工具列表出发——例如RapidAPI上的16000+ REST端点或精心策划的SDK目录(Qin et al., 2023 (https://arxiv.org/html/2606.11520#bib.bib13); Liu et al., 2024 (https://arxiv.org/html/2606.11520#bib.bib10))——然后从每个工具*反向推导*任务(“*get_weather(city)*”→\\mst@varfam@dot\\mst@varfam@slash\\rightarrow“东京天气如何?”)。因此,生成的任务分布反映的是工具目录而非用户真实需求;长尾和跨工具意图被系统性低估。自然的替代方案——让LLM自由生成用户任务——同样表现不佳:指令微调的LLM表现出有据可查的*模式坍塌*,倾向于生成它们最常遇到的高频措辞(Wang et al., 2022 (https://arxiv.org/html/2606.11520#bib.bib17))(算法谜题、通用邮件模板、客服开场白),生成的任务看似多样,实则聚类在意图空间的狭窄区域。**缺口2(单轮偏差)**:几乎所有操作系统Agent数据集都是单轮的(Sun et al., 2024 (https://arxiv.org/html/2606.11520#bib.bib15); Xu et al., 2024 (https://arxiv.org/html/2606.11520#bib.bib22)),未能捕捉真实Agent交互中核心的多轮任务委派、修正和验证循环。即使带有用户模拟器的流程(Prabhakar et al., 2025 (https://arxiv.org/html/2606.11520#bib.bib12); Chen et al., 2026b (https://arxiv.org/html/2606.11520#bib.bib3))也存在*角色漂移*——指令微调的LLM逐渐采用助手风格的语言——和*状态幻觉*——模拟器基于与实际操作系统状态不符的假设状态发出后续请求(Zhou et al., 2026 (https://arxiv.org/html/2606.11520#bib.bib27))。**缺口3(模拟执行)**:工具执行通常是模拟而非真实的(Mitra et al., 2024 (https://arxiv.org/html/2606.11520#bib.bib11); Chen et al., 2026a (https://arxiv.org/html/2606.11520#bib.bib2)),训练Agent时使用的执行分布是幻觉化的,与实际操作系统行为脱节,并且几乎不产生真实的失败-恢复样例。
这些缺口相互叠加:缺少任何一个都会产生不具代表性、有限或脱离实际执行语义的训练数据。
参见图注图 1:ISETrace在并发Agent数据全景中的位置。每个圆代表一个语料库(x轴 = 轨迹平均对话轮次;y轴 = 轨迹数量,对数刻度)。气泡面积编码每轨迹工具调用次数;色调编码环境锚定(真实操作系统/模拟/网络/合成)。阴影区域表示长周期×\\mst@varfam@dot\\mst@varfam@slash\\times真实操作系统执行×\\mst@varfam@dot\\mst@varfam@slash\\times≥\\mst@varfam@dot\\mst@varfam@slash\\geq20K轨迹区间,ISETrace是当前工作中唯一占据该区间的。我们提出ISE(意图→\\mst@varfam@dot\\mst@varfam@slash\\rightarrow模拟→\\mst@varfam@dot\\mst@varfam@slash\\rightarrow执行),一种三阶段合成范式,联合解决所有三个缺口。图1 (https://arxiv.org/html/2606.11520#S1.F1)展示了ISETrace相对于当前工作的定位。**第一阶段**通过独立采样四个轴——人物、领域子集、任务序列、复杂度——构建约∼\\mst@varfam@dot\\mst@varfam@slash\\sim50,000个结构化意图,然后将所选任务扩展为所需的工具集:平均每个意图跨越2.35个领域和4.40个有序任务,总共调用3.18个不同工具(派生统计数据,非第五个采样轴)。去重后意图池包含43,956\\mst@varfam@dot\\mst@varfam@slash 43\{,\}956个唯一意图,在mpnet-base-v2嵌入(余弦,q=1\\mst@varfam@dot\\mst@varfam@slash\{\\mst@q\}\{=\}1)上对*整个*意图池计算的Vendi分数为61.57\\mst@varfam@dot\\mst@varfam@slash 61\.57。**第二阶段**通过带有四个行为约束的角色锁定用户模拟器驱动多轮交互,抑制角色漂移和状态幻觉,生成23,132条完整轨迹,其中91.1%包含6-10个用户轮次(平均8.12个用户轮次,68.24个总对话轮次)。**第三阶段**将所有工具调用锚定在隔离实时工作空间中的真实操作系统执行上,确保轨迹反映真实操作系统行为而非模拟工具响应。
#### 贡献。
1. 1.ISE范式和ISETrace数据集:一个三阶段方案及生成的23,132条轨迹语料库(∼\\mst@varfam@dot\\mst@varfam@slash\\sim50,000个结构化意图,去重后43,956\\mst@varfam@dot\\mst@varfam@slash 43\{,\}956个唯一意图;平均每条轨迹8.12个用户轮次和68.24个总对话轮次)。
2. 2.多样性与消融证据:全栈多样性量化(嵌入、词汇、结构)以及隔离多轮模拟贡献的消融实验(§3 (https://arxiv.org/html/2606.11520#S3),表5 (https://arxiv.org/html/2606.11520#S5.T5))。代码、数据和训练好的检查点均已开源。
## 2 相关工作
### 2.1 Agent数据合成
#### 工具优先合成。
Qin 等人 (2023 (https://arxiv.org/html/2606.11520#bib.bib13)) 和 Liu 等人 (2024 (https://arxiv.org/html/2606.11520#bib.bib10)) 从API目录推导任务,生成的分布反映的是工具空间而非用户需求空间。Mitra 等人 (2024 (https://arxiv.org/html/2606.11520#bib.bib11)) 将其扩展到大规模Agent轨迹,但未进行实时执行。ISE采取相反的起点:结构化意图采样(而非工具目录)驱动需要合成的轨迹,因此训练分布由用户需求组合而非API可用性决定。
#### 环境驱动合成。
Sun 等人 (2024 (https://arxiv.org/html/2606.11520#bib.bib15)) 在随机GUI探索后回顾性地推断任务描述,缺乏原则性的覆盖保证。Xu 等人 (2024 (https://arxiv.org/html/2606.11520#bib.bib22)) 使用网络教程作为种子;多样性受限于教程池。两者都缺少多轮用户模拟。ISE的4D组合采样没有这样的天花板,且前瞻性地从用户需求空间采样意图;我们在§3 (https://arxiv.org/html/2606.11520#S3) 中量化了由此产生的意图级多样性。
#### 多轮合成与验证。
Chen 等人 (2026a (https://arxiv.org/html/2606.11520#bib.bib2)) 是最接近的竞争者:它合成多轮工具使用数据,并附带每个实例由LLM编写的检查器。我们的工作有两个不同之处:(1) ISE使用真实操作系统执行而非LLM编写的检查器——这是一个物理确定性的验证信号;(2) ISE添加了角色锁定的多轮用户模拟,将每一轮用户输入锚定在执行状态上。Chen 等人 (2026b (https://arxiv.org/html/2606.11520#bib.bib3)) 在客服场景中使用约束作为生成指南,但缺乏执行锚定。Prabhakar 等人 (2025 (https://arxiv.org/html/2606.11520#bib.bib12)) 构建了带LLM委员会验证的蓝图到轨迹流程,并在τ\\mst@varfam@dot\\mst@varfam@slash\\tau-bench上取得强结果,但使用模拟API环境。
Zhu 等人 (2026 (https://arxiv.org/html/2606.11520#bib.bib28)) 合成带有刻意错误注入的可验证Docker环境,这是一个与我们的方法正交的方法。Lin 等人 (2026 (https://arxiv.org/html/2606.11520#bib.bib8)) 和 Yang 等人 (2025 (https://arxiv.org/html/2606.11520#bib.bib24)) 推进了基于执行的评估,但缺乏多轮用户模拟。
#### 2026年并发工作。
几项并发努力针对工具使用或MCP环境。Toucan (Xu et al., 2025 (https://arxiv.org/html/2606.11520#bib.bib23)) 从约∼\\mst@varfam@dot\\mst@varfam@slash\\sim500个MCP服务器合成了150万条轨迹,其中567,262条(37%)是多轮的。EnvFactory (Xu et al., 2026a (https://arxiv.org/html/2606.11520#bib.bib20)) 从85个经过验证的环境生成了2,575条轨迹,平均每次交互4.82轮,每轮3.29步。COVERT (Xu et al., 2026b (https://arxiv.org/html/2606.11520#bib.bib21)) 专注于保留神谕的强化学习增强,报告BFCL v3 / ACEBench准确率而非语料库级统计。一个并行的以GUI为中心的工作线(OpenMobile (Cheng et al., 2026 (https://arxiv.org/html/2606.11520#bib.bib4)), ToolCUA (Hu et al., 2026 (https://arxiv.org/html/2606.11520#bib.bib7)), CUA-Gym (Wang et al., 2026 (https://arxiv.org/html/2606.11520#bib.bib16)), Video2GUI (Xiong et al., 2026 (https://arxiv.org/html/2606.11520#bib.bib18)))针对视觉交互而非Shell语义。我们的工作在以下两个轴上与上述语料库不同:(i) 所有轨迹均针对真实Shell执行,且(ii) 我们报告了嵌入级多样性(Vendi / Self-BLEU / Distinct-N)以及语料库信息。表1 (https://arxiv.org/html/2606.11520#S2.T1) 总结了比较;较长的每轨迹长度是否转化为下游增益留待§5 (https://arxiv.org/html/2606.11520#S5) 讨论,而非在此断言。
### 2.2 Agent训练范式
在合成轨迹上进行SFT (Zeng et al., 2023 (https://arxiv.org/html/2606.11520#bib.bib26); Shi et al., 2025 (https://arxiv.org/html/2606.11520#bib.bib14)) 仍然是操作系统Agent训练的主导范式,也是我们评估的机制。我们有意将*数据组成*(本工作的贡献)与训练算法选择分离:固定基座模型和训练目标,问题是4D结构化意图、角色锁定多轮模拟和执行锚定是否能带来提升。
### 2.3 多轮评估
Yao 等人 (2024 (https://arxiv.org/html/2606.11520#bib.bib25)) 提供了带有LLM用户模拟器的标准多轮基准。Zhou 等人 (2026 (https://arxiv.org/html/2606.11520#bib.bib27)) 表明LLM模拟器在系统上比真实用户更合作且风格更统一——这直接激励了我们的角色锁定设计。Liu 等人 (2023 (https://arxiv.org/html/2606.11520#bib.bib9)) 提供了更广泛的操作系统级评估。
#### 定位。
表1 (https://arxiv.org/html/2606.11520#S2.T1) 总结了与涵盖2023-2026年的十二个当代基线相比的关键维度。
表 1:ISETrace(我们的)与十二个当代Agent轨迹语料库的定位比较。轮次:每个轨迹的平均总轮次;工具/轮次:每个轨迹的平均工具调用次数;令牌数:每个轨迹的平均令牌数(k=千);MT:多轮用户模拟;Real:真实操作系统执行(vs. 模拟/GUI沙盒)。✓ = 是;∼\\mst@varfam@dot\\mst@varfam@slash\\sim= 部分;× = 否;“–” = 原始论文未报告。所有数字均根据源PDF验证。†推导值:EnvFactory报告4.82轮和每轮3.29步;此处报告其乘积作为近似值,非直接声明的计数。
## 3 ISETrace数据集分析
我们从三个正交轴——语义(嵌入)、词汇(n-gram)和结构(工具调用拓扑)——对数据集进行表征,以验证4D采样结合执行锚定生成的质量比工具优先或单轮替代方案更丰富的轨迹。
#### 嵌入多样性:Vendi分数。
我们计算Vendi分数 (Friedman and Dieng, 2023 (https://arxiv.org/html/2606.11520#bib.bib6))(阶q=1\\mst@varfam@dot\\mst@varfam@slash\{\\mst@q\}\{=\}1,余弦核)在all-mpnet-base-v2嵌入111Hugging Face模型ID:sentence-transformers/all-mpnet-base-v2上。意图池在去重后包含43,956\\mst@varfam@dot\\mst@varfam@slash 43\{,\}956个唯一意图;我们在常规的=500\\mst@varfam@dot\\mst@varfam@slash\{\\mst@N\}\{=\}500子样本上(为与先前工作直接比较)以及在*整个*意图池上评估Vendi分数。在全量上的计算通过非零特征值的恒等式spec\(\)⊤=spec\(\)⊤\\mst@varfam@dot\\mst@varfam@slash\\mathrm\{\{\\mst@s\}\{\\mst@p\}\{\\mst@e\}\{\\mst@c\}\}\(\{\\mst@X\}\{\}^\{\top\}\)=\\mathrm\{\{\\mst@s\}\{\\mst@p\}\{\\mst@e\}\{\\mst@c\}\}\(\{\}^\{\top\}\{\\mst@X\}\)变得可行,这将核特征分解从×\\mst@varfam@dot\\mst@varfam@slash\{\\mst@N\}\\times\{\\mst@N\}矩阵缩减为768×768\\mst@varfam@dot\\mst@varfam@slash 768\\times 768矩阵。ISETrace在=500\\mst@varfam@dot\\mst@varfam@slash\{\\mst@N\}\{=\}500子样本上达到Vendi分数51.27±1.49\\mst@varfam@dot\\mst@varfam@slash 51\.27\\pm 1\.49(30次自助法),在完整池上达到61.57\\mst@varfam@dot\\mst@varfam@slash\\mathbf\{61\.57\}。表2 (https://arxiv.org/html/2606.11520#S3.T2) 报告了在=500\\mst@varfam@dot\\mst@varfam@slash\{\\mst@N\}\{=\}500下按配置细分的分数,显示该分数在不同领域和人物切片上均稳健,仅在单一配置下明显下降。相似文章
WRIT:面向多轮用户代理的写读密集型轨迹合成
本文提出WRIT,一种用于合成多轮代理训练轨迹的流水线,该流水线平衡了写密集型与读重复杂度。该方法生成多样化的任务和模拟,使小型模型能够以更低的推理成本实现强大性能。
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
Shepherd:通过形式化执行轨迹赋能元智能体的运行时底层架构
本文介绍了 Shepherd,这是一种面向元智能体的函数式编程模型和运行时底层架构,它使用 Lean 对操作进行形式化,并以类似 Git 的执行轨迹记录交互。该系统通过支持智能体状态的高效分叉与重放,在运行时干预、反事实优化和强化学习训练方面展示了显著的性能提升。
大规模评估多智能体系统(48分钟阅读)
OpenAI提供的一本操作手册,介绍了使用合成轨迹发现重复行为模式的大规模多智能体系统宏观评估工作流程。
从策略错误中恢复:鲁棒GUI代理的基准测试与轨迹合成
引入GUI-RobustEval(一个用于GUI代理错误恢复的基准)和鲁棒性驱动轨迹合成(RoTS)以生成训练数据,在OSWorld上达到当前最佳性能。