Trace2Policy:从专家行为痕迹到自我进化决策代理
摘要
Trace2Policy 从专家行为痕迹中提取人类可读的决策规则,并通过错误驱动的技能精炼进行迭代优化,在物流领域的合规敏感任务上优于纯LLM基线。
arXiv:2606.10457v1 公告类型:新
摘要:企业专家在审计、合规和合同审查中隐性应用的决策规则,可以通过迭代错误分析系统地发现和改进。我们提出 **Trace2Policy**,其核心机制 **EISR**(**E**rror-driven **I**terative **S**kill **R**efinement,即错误驱动的迭代技能精炼)将人类可读的规则文档作为优化目标:每一轮在验证集上执行规则,按根本原因将错误聚类为 MISSING、WRONG 或 CONFLICT 类型,应用针对性补丁,并仅提交通过回归门控的改动。**对于这类合规敏感、基率偏斜的决策任务,我们确定规则质量——而非模型能力——是主导性能杠杆**:在五个 LLM 上,一次性蒸馏在部署池上停滞于约 70%,而八轮 EISR 将相同规则提升至 79.6%(编译为确定性 Python 代码后),推理时零 LLM 调用。**执行形式放大了收益:在生产中,相同的 EISR 优化内容以编译的 Python 运行时比作为 LLM 提示词时高出 9.8 个百分点,这是一个形式和工程捆绑,在 22 天的部署中共同成熟。** 在一家大型物流承运商(3,349 个审计案例)中部署 22 天后,编译后的流水线优于其所取代的纯 LLM 基线(72.7%);在这些经过校准、基率偏斜的工作负载上,重新启用 LLM 回退会单调降低准确性。一个由 LLM 驱动的变体 **Auto-EISR** 以每轮 5–10 美元(相对于约 70 专家小时)重现了这种优化,并迁移到四个涵盖法律推理(LegalBench)和流程挖掘决策(BPIC 2012)的公开基准,无需重新工程化。
查看缓存全文
缓存时间: 2026/06/10 06:15
# 从专家行为轨迹到自我进化的决策智能体
**来源**:https://arxiv.org/html/2606.10457
Junli Zha, Jinbo Wang, Chao Zhou, Xiang Song
SF Express
{zhajunli, wangjinbo, charleszhou, songxiang1}@sf-express.com
###### 摘要
企业专家在审计、合规和合同审查中隐含应用的决策规则,可以通过迭代错误分析进行系统性恢复和改进。我们提出 **Trace2Policy**,其核心机制 **EISR**(错误驱动的迭代技能精炼,Error-driven Iterative Skill Refinement)将一份人类可读的规则文档作为优化目标:每轮在验证集上执行规则,按根本原因将错误聚类为“缺失”“错误”或“冲突”类型,应用针对性补丁,并仅通过回归检验的补丁才被接纳。对于这类合规敏感、基线偏斜的决策任务,我们发现规则质量——而非模型能力——是决定性能的主要杠杆:在五个大语言模型上,一次性蒸馏在已部署的测试集上性能接近约 70%,而八轮 EISR 将同一组规则提升至 79.6%(编译为确定性 Python 后,推理时完全不调用大语言模型)。执行形式进一步放大了收益:在生产环境中,相同的 EISR 精炼内容以编译 Python 形式运行,比作为大语言模型提示词运行高出 9.8 个百分点——这在 22 天的部署中,形式与工程实现共同成熟。在一家主要物流承运商部署 22 天(3,349 个审计案例)后,编译流水线优于其替代的纯大语言模型基线(72.7%);在这些经过校准、基线偏斜的工作负载上,重新启用大语言模型备选机制会单调降低准确率。一个由大语言模型驱动的变体 **Auto-EISR** 以每周期 5–10 美元的成本(相对于约 70 专家小时)复现了这种精炼过程,并无需重新工程即可迁移至四个公开基准,涵盖法律推理(LegalBench)和流程挖掘决策(BPIC 2012)。
## 1 引言
大量企业工作包含**判断密集型决策任务**:专家需要在多个信息系统之间导航,将数据字段与领域特定语义交叉引用,并应用经年积累的决策启发式。例如物流中的损坏责任审计、保险理赔核赔、监管合规审查以及制造质量检验。这些任务具有三个共同特征:(1)遵循隐含但系统的规则;(2)这些规则与特定软件系统交互,而系统行为包含隐藏的惯例;(3)规则随业务条件变化而演变。
自动化此类任务需要解决三个现有方法仅部分应对的问题:
**知识获取:学习“决策什么”,而不仅仅是“点击什么”。**
GUI 智能体(如 CogAgent [Hong et al., 2024]、SeeAct [Zheng et al., 2024]、UI-TARS [Qin et al., 2025] 和 DigiRL [Bai et al., 2024])学会操作界面——点击哪些按钮、填写哪些字段——但并未掌握这些操作背后的决策逻辑。AgentTrek [Xu et al., 2025] 从网络教程合成轨迹,但教程描述的是步骤而非判断启发式。流程挖掘 [Van der Aalst, 2016] 从事件日志中发现活动流,但无法解释为何做出特定决策。像 Voyager [Wang et al., 2023] 这样的技能库方法在游戏环境中积累可复用的代码技能,但企业决策需要的是可解释的规则而非可执行程序。我们需要从自然工作行为中提取**决策策略**——即专家行动背后的“原因”。
**知识精炼:为何一次性提取会失败。**
Self-Refine [Madaan et al., 2023] 和 Reflexion [Shinn et al., 2023] 迭代改进大语言模型的**输出**;TextGrad [Yuksekgonul et al., 2024] 和 OPRO [Yang et al., 2024] 优化**提示词**;AgentRefine [Fu et al., 2025] 通过环境反馈精炼智能体**行为**。但它们均未精炼**外化的、可解释的决策规则**——它们提升模型性能而不产生可审计的知识制品。一次性提取——无论是通过大语言模型蒸馏、少样本学习还是专家访谈——仅捕获**表层知识**:显而易见的步骤和常见模式。我们的实验表明,这种表层知识是不够的:在 111 份运单验证池上,v1 Skills ≈ 无规则 ≈ 少样本,在 5 个模型上均约 70%,而在 139 例预留测试集上,未精炼的规则甚至可能通过“权威替代”(第 5 节)对强模型造成负面影响。**深层知识**——系统编码惯例、隐含的动作语义、索赔与动作的不匹配——需要通过迭代错误分析才能显现为可审计的制品。
**知识演化:超越静态部署。**
近期关于自我进化智能体的综述 [Tao et al., 2024] 指出了一个关键缺口:大多数智能体系统在部署后保持静态,无法适应不断变化的业务条件。现有的进化机制(强化学习微调、元学习、基于种群的方法)需要成本高昂的标记反馈。企业决策任务提供了一个独特机会:人工审阅者作为现有工作流程的一部分,已经在审查每一条案例——这提供了**零边际成本的自然真实标签**。我们需要一个利用这一信号实现持续自我改进的框架。
我们提出 **Trace2Policy**,一个端到端框架,其核心为**错误驱动的迭代技能精炼(EISR)**:一个结构化的诊断-修补循环,将外化的规则文档视为优化对象,将每个验证错误分类为“缺失”“错误”或“冲突”根本原因聚类,为每个聚类提出针对性补丁,并仅当回归检验确认该补丁不会破坏之前正确的案例时才接受该补丁(算法 1)。围绕 EISR 的上游组件提供其输入——一个记录专家行为的智能体观察器、一个将原始轨迹结构化为决策记录的多模态大模型、一个从少量标记示例中提取初始 v1 规则文档的大语言模型蒸馏器——以及下游生产数据飞轮,其中持续的人工审阅以零边际成本提供自然真实标签。完整流水线如图 1 所示;组件细节见第 3 节。我们进一步展示(第 4.3 节)EISR 的输出支持两种互补的执行形式——大语言模型提示词和编译后的确定性 Python——并报告了一个在部署中观察到的形式捆绑现象:9.8 个百分点的准确率差距,该差距将形式与工程实现捆绑在一起,并限定于生产场景。
我们的贡献:
- **Trace2Policy**:一个从原始专家行为轨迹到已部署决策智能体的端到端流水线,通过在一家主要物流承运商为期 22 天的生产部署(涵盖 3,349 个已结案案例)得到验证——据我们所知,这是对话策略文献中首个此规模的此类研究。
- **EISR(错误驱动的迭代技能精炼)**:一种使用大语言模型作为优化器并带有回归门控接纳的规则精炼算法。我们提供其有效性的初步证据:Auto-EISR 在动作和类别准确率上匹配 Human-EISR,每个精炼周期成本为 5–10 美元,而专家需要约 70 小时。
- **关于规则质量和执行形式的场景内观察**:在五个模型规模上,归因于规则版本的方差超过了归因于模型选择的方差(表 3);在生产场景内,带有 22 天累积扩展的编译 Python 执行相比于技能级提示词产生了 9.8 个百分点的差距(表 1)。我们将此视为一个形式捆绑观察,而非纯粹因果性论断;分离形式本身的成分是一个测量缺口,跨场景行为在第 4.3 节中报告。
- **一个权威替代观察**,并记录了三种“陷阱规则”类别——一次性提取无法发现的深层知识——对人与人工智能协作设计具有启示。
**贡献类型。** 我们提交为**“受用启发”**类型:用例源于已有操作需求,方法论选择根据此用例的特性设计,我们的评估既包括机器学习基线,也包括系统所增强的人类专家工作流程。
**范围。** 摘要中“绑定约束”的表述将范围限定于部署场景:第 4.3 节报告编译流水线在 139 例技能级预留测试集上达到 74.1%(低于 B1b 的 82.7%),我们将其视为声明的**明确范围**,而非矛盾。9.8 个百分点的“研究杠杆”将形式与工程捆绑,分离形式本身被标记为测量缺口。跨域可迁移性在四个公开基准上进行了探索(第 6 节);严格的跨域验证(含领域特定基线)仍有待开展。
## 2 相关工作
**操作界面 vs. 提取决策。**
GUI 智能体 [Hong et al., 2024; Zheng et al., 2024; Qin et al., 2025; Bai et al., 2021] 和轨迹合成器 [AgentTrek, Xu et al., 2025] 学习“如何点击”;Voyager [Wang et al., 2023] 在游戏中积累代码技能。流程挖掘 [Van der Aalst, 2016] 从事件日志中发现“做了什么”而非“为什么做”。它们均未从生产性企业系统中的自然专家行为中提取可解释的决策规则——而这正是 Trace2Policy 的目标。
**什么被精炼。**
Self-Refine [Madaan et al., 2023]、Reflexion [Shinn et al., 2023] 精炼大语言模型的**输出**;TextGrad [Yuksekgonul et al., 2024]、OPRO [Yang et al., 2024] 精炼**提示词**;AgentRefine [Fu et al., 2025] 精炼智能体**行为**。EISR 精炼的是**外化的、版本控制的决策规则**,这些规则作为独立于任何特定模型的可审计制品存在——精炼结果可供人类检视,同一组规则适用于我们评估的 6 个大语言模型,并且知识在不同模型部署间得以持久。其预先验证器和回归门借鉴了 AI Scientist v2 [Yamada et al., 2025]、FunSearch [Romera-Paredes et al., 2024] 以及 Retroformer [Yao et al., 2024] 的回顾/演员分离设计。
**提示词优化。**
DSPy [Khattab et al., 2023] 和 MIPRO [Opsahl-Ong et al., 2024] 通过指标驱动的搜索优化提示词模板。EISR 在两个关键方面不同:(1)**制品类型**——DSPy 优化参数化提示链,而 EISR 精炼一份外化的、人类可读的规则文档,适合合规审计和版本控制;(2)**优化目标**——DSPy 通过提示词调优最大化端到端任务指标,而 EISR 在可解释性约束下优化规则覆盖率和精确率。系统性的比较需要为这些本质不同的制品类型构建等效的评估协议,我们将其留给未来工作。
**自我进化的智能体。**
2025 年的综述 [Tao et al., 2024] 按维度(参数、提示词、记忆、工具、工作流)组织了现有系统;大多数进化的是模型内部组件,需要显式的奖励或人类反馈。我们通过现有的人工审阅工作流中的**自然真实标签**来进化**外化的决策规则**。
**同期工作(2025–2026)。**
Jiang 等人 [Jiang et al., 2026] 系统化了智能体技能生命周期;Jiang 等人 [Jiang et al., 2025] 综述了后训练适应;Zhang 等人 [Zhang et al., 2026] 指出了声明性规则提取的“缺失对角线”;Xu 和 Yan [Xu and Yan, 2026]、Bi 等人 [Bi et al., 2026] 综述/挖掘技能制品;Nian 等人 [Nian et al., 2026] 形式化了智能体可审计性。我们提供了一个带有生产数据的已部署实例。定位总结见附录 D。
## 3 Trace2Policy 框架
**阶段 0**:追踪 → **阶段 1**:结构化 → **阶段 2**:蒸馏 → **阶段 3**:精炼 → **阶段 4**:进化
- Human-EISR(第 5 节)
- Auto-EISR(第 5.3 节)
**智能体观察器**(多模态行为捕获)→ **VLM**(轨迹 → 决策记录)→ **LLM**(记录 → 初始策略)→ **错误驱动的迭代精炼** → **部署 + 自然数据飞轮** → **持续自我进化**
图 1:Trace2Policy 流水线。专家行为轨迹逐步转化为可执行的、自我进化的决策策略。阶段 3 有两种实现——人类在环精炼器(第 5 节,最初设想)和 LLM 驱动的 Auto-EISR 变体(第 5.3 节);两者均馈入相同的阶段 4 飞轮,该飞轮再反馈至阶段 3 以实现持续改进。
### 3.1 阶段 0–1:行为捕获与结构化
一个**智能体观察器**系统被动捕获专家工作为多模态事件流(窗口焦点、鼠标点击及区域截图、键盘输入、浏览器事件),并使用业务锚点(如运单号)将其分割为任务级轨迹。在我们的案例研究中,这产生了两位执行相同任务的专家审计员的 555 条轨迹(附录 E)。然后,一个 VLM 将原始轨迹转化为结构化决策记录——已查阅的系统、关键观察、推理链及证据。这产生了 476 条可用记录(成功率 85.8%)。476 条结构化记录用于策略蒸馏(阶段 2),而全部 555 条记录则使用紧凑 API 数据(附录 O 提供真实标签以供评估。
### 3.2 阶段 2:自动化策略蒸馏
从 N 条结构化决策记录中,一个 LLM 蒸馏出初始策略——一个可执行的规则库,我们称之为 **Skills**(文档),其中包含若干**规则**(文档内的编号要点)。本文以要点粒度为计数单位:v8 策略包含 62 条规则,分布在 5 个 Markdown 文件中(每条决策路径一个文件,外加一个路径路由文件)。Skills 组织为三层:
- **工作流层**:查询哪些系统、按何种顺序、使用何种凭证。相似文章
TRACE:面向LLM智能体的自适应跨步证据聚合轨迹推理
TRACE是一个用于长周期LLM智能体轨迹的监控框架,它通过分诊-检查-判断(Triage-Inspect-Judge)循环来连接时间上相隔较远的动作证据,在规避性破坏检测任务上实现了高召回率和F1值。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
SkillAudit:基于成对轨迹审计的无真值技能进化
SkillAudit 引入了一个框架,通过成对轨迹审计和对比评估,在没有真实反馈的情况下进化 LLM 智能体技能。该框架在 89 个任务上实现了 73.9% 的平均任务奖励,优于基线方法。
TRACE:面向长周期智能体安全的轨迹风险感知压缩方法
本文提出 TRACE,一种面向长周期 LLM 智能体的轨迹级安全检测方法,通过将完整轨迹证据压缩为潜在状态,更好地聚合分散的风险信号,在多个基准上达到最先进的准确率。