你的智能体拥有基因组：LLM驱动的自主智能体的序列级行为分析与运行时治理

arXiv cs.AI 2026/06/16 04:00 论文

llm-agents behavioral-analysis runtime-governance sequence-mining ai-safety react autonomous-agents

摘要

本文介绍了Base Sequence Analysis框架，该框架将LLM智能体的运行时行为编码为紧凑序列，揭示了高风险模式（如'P-X-P'三元组）和验证缺失。它提出了Governor，一个运行时干预系统，使任务成功率提高了6.2%，并将令牌消耗减少了44%。

arXiv:2606.15579v1 公告类型：新摘要：我们提出了Base Sequence Analysis，一个使用四字母字母表（X：探索，E：执行，P：规划，V：验证）将LLM驱动的自主智能体的运行时行为编码为紧凑符号序列的框架。借鉴基因组序列分析的思想，我们应用n-gram模式挖掘、马尔可夫转移矩阵和点双列相关分析，对从生产环境的ReAct智能体系统收集的8天内347条真实执行轨迹进行了分析。分析揭示：(1) 三元组P-X-P是唯一统计显著的高风险模式，使成功率降低10.4%；(2) P比率是成功率最强的负预测因子（r=-0.256, p<0.0001）；(3) E->V转移概率仅为2.1%，表明存在系统性验证缺失。基于这些发现，我们设计了Governor，一个三层运行时干预系统，包含规则引擎、统计累加器和基于卡方的阈值自适应器。在自然的前后部署评估中（N=101 vs. N=246），Governor实现了任务成功率的绝对提升6.2%，同时将平均令牌消耗降低了44%。为验证跨系统通用性，我们将XEPV编码应用于SWE-bench上的2,000条公开SWE-agent轨迹，确认探索螺旋和E->V验证缺失在独立系统中重现。我们概述了六个研究方向，包括基础序列语言模型、跨智能体行为指纹识别和奖励塑形，并发布了用于复现的开源工具包。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 你的智能体拥有基因组：LLM驱动自主智能体的序列级行为分析与运行时治理
来源: https://arxiv.org/html/2606.15579
（2026年4月）

###### 摘要

我们提出**碱基序列分析**框架，该框架将LLM驱动的自主智能体的运行时行为编码为紧凑的符号序列，使用四个字母的字母表：**X**（探索）、**E**（执行）、**P**（规划）和**V**（验证）。类比基因组序列分析，我们对从生产环境ReAct智能体系统在8天内收集的347条真实执行轨迹进行n-gram模式挖掘、马尔可夫转移矩阵和点二列相关分析。我们的分析揭示：(1) 三元组P-X-P是唯一统计显著的高风险模式，使成功率降低10.4%；(2) P比率是成功的最强的负预测因子（\(r=-0.256\)，\(p<0.0001\)）；(3) E→V转移概率仅为2.1%，表明存在系统性的验证缺失。基于这些发现，我们设计了**Governor**，一个三层运行时干预系统，包含规则引擎、统计累加器和基于卡方的阈值自适应器。Governor的规则并非手工编写的启发式方法：它们源自系统性的数据分析，并通过在线卡方检验持续演化，当初始假设错误时，阈值能够自我修正。Governor在序列级别运行，零LLM开销，当检测到高风险碱基模式时注入纠正性提示。在自然的部署前后评估中（\(N=101\) vs. \(N=246\)），Governor实现了任务成功率的绝对提升+6.2%，同时平均令牌消耗减少44%。为了验证跨系统通用性，我们定义了一个适配器接口，用于将XEPV编码移植到其他智能体框架，并将其应用于SWE-bench上的2000条公共SWE-agent轨迹，确认三个核心发现中的两个——探索螺旋和E→V验证缺失——在一个行动空间结构不同的独立系统中得以复现。分析进一步揭示了模型级别的行为指纹：更大的模型自然表现出更高的验证率，表明碱基序列轮廓可以作为行为身份签名。基于这些结果，我们勾勒出六个研究方向——碱基序列语言模型、碱基条件解码、序列异常检测、双流智能体架构、碱基序列奖励模型和碱基序列指纹识别——这些方向描绘出一条从可解释规则到学习型行为治理的路径。我们最后论证，碱基序列治理代表智能体系统的“小脑”——介于LLM大脑和工具执行体之间的协调层，其全部潜力需要远超任何单个部署所能生成的社区规模数据。

关键词：LLM智能体，ReAct，行为分析，序列挖掘，运行时治理，碱基序列

## 1 引言

基于大型语言模型（LLM）的自主智能体已成为复杂任务执行的主导范式 [姚等人，2023 (https://arxiv.org/html/2606.15579#bib.bib14)；Shinn等人，2023 (https://arxiv.org/html/2606.15579#bib.bib6)；Wang等人，2023 (https://arxiv.org/html/2606.15579#bib.bib9)]。这些系统在ReAct循环中交错推理和行动 [姚等人，2023 (https://arxiv.org/html/2606.15579#bib.bib14)]：LLM选择工具，观察结果，并迭代直至任务完成。尽管在智能体架构设计方面取得了实质性进展，但我们对*智能体在运行时实际做什么*的理解仍然出奇地肤浅。现有的评估框架 [刘等人，2024 (https://arxiv.org/html/2606.15579#bib.bib3)；杨等人，2024 (https://arxiv.org/html/2606.15579#bib.bib13)] 侧重于结果指标（通过率、准确率），而没有分析导致成功或失败的*行为轨迹*。

这个差距很重要。考虑两个都达到90%成功率的智能体：一个可能通过高效的先探索后执行序列达到目标，而另一个在规划和探索之间摇摆，然后偶然进入正确行动。这些智能体有相同的结果指标，但行为轮廓根本不同——第二个对分布变化要脆弱得多。

我们采用一种受生物信息学启发的方法来弥补这一差距。正如基因组分析从四个核苷酸碱基（A、T、C、G）的序列中提取意义，我们将智能体执行的每一步编码为四种碱基类型之一：

- **X**（探索）：信息收集——读取文件、网络搜索、目录列表
- **E**（执行）：改变状态的行动——写入文件、运行命令、API调用
- **P**（规划）：推理和策略——任务分解、反思、重新规划
- **V**（验证）：验证——运行测试、检查输出、重新读取写入的文件

因此，一个任务执行就成为了一个碱基序列，例如 X-X-P-E-E-V-E，可以使用丰富的序列分析工具集进行分析：n-gram、转移矩阵、相关研究和模式挖掘。

#### 贡献。

本文做出四项贡献：

1. **碱基序列抽象**（§3 (https://arxiv.org/html/2606.15579#S3)）：一种形式化编码方案，将异构智能体工具调用映射到四个字母的字母表，连同8维特征向量、协同设计的执行轨迹格式，以及实现跨系统可移植性的适配器接口（§3.4 (https://arxiv.org/html/2606.15579#S3.SS4)）。
2. **实证行为分析**（§4 (https://arxiv.org/html/2606.15579#S4)）：对347条生产执行轨迹的全面分析，揭示了可操作的模式——P-X-P振荡是唯一的高风险三元组，P比率是最强的失败预测因子，以及系统性的2.1% E→V验证缺失。
3. **Governor**（§5 (https://arxiv.org/html/2606.15579#S5)，§6 (https://arxiv.org/html/2606.15579#S6)）：一个三层运行时干预系统，其规则源于数据分析（§5.5 (https://arxiv.org/html/2606.15579#S5.SS5)）并通过在线卡方检验演化，实现成功率+6.2%和令牌消耗-44%，零LLM开销。
4. **跨系统验证**（§6.7 (https://arxiv.org/html/2606.15579#S6.SS7)）：将XEPV编码应用于SWE-bench上的2000条公共SWE-agent轨迹，确认探索螺旋和E→V缺失跨系统复现，同时揭示模型级别的行为指纹。

## 2 相关工作

#### LLM智能体架构。

ReAct框架 [姚等人，2023 (https://arxiv.org/html/2606.15579#bib.bib14)] 建立了交错推理-行动范式。后续工作丰富了这一循环：Reflexion [Shinn等人，2023 (https://arxiv.org/html/2606.15579#bib.bib6)] 增加了对失败的言语自我反思；思维树 [姚等人，2024 (https://arxiv.org/html/2606.15579#bib.bib15)] 和LATS [Zhou等人，2024 (https://arxiv.org/html/2606.15579#bib.bib16)] 引入了对推理路径的搜索；Voyager [Wang等人，2023 (https://arxiv.org/html/2606.15579#bib.bib9)] 增加了用于终身学习的持久技能库；Toolformer [Schick等人，2023 (https://arxiv.org/html/2606.15579#bib.bib5)] 教会模型自主调用工具。CoALA [Sumers等人，2024 (https://arxiv.org/html/2606.15579#bib.bib7)] 提供了一个统一的认知架构分类法。我们的工作与架构设计正交：我们分析任何ReAct风格智能体的*行为输出*，无论其内部架构如何。

#### 智能体评估与基准测试。

AgentBench [刘等人，2024 (https://arxiv.org/html/2606.15579#bib.bib3)] 在8个智能体环境中评估LLM；SWE-bench和SWE-agent [杨等人，2024 (https://arxiv.org/html/2606.15579#bib.bib13)] 专注于软件工程任务；OpenHands [Wang等人，2024 (https://arxiv.org/html/2606.15579#bib.bib10)] 提供了一个可复现智能体评估的平台。这些工作衡量的是智能体*达成什么*（通过率），而不是*如何达成*。我们的碱基序列分析通过提供智能体执行轨迹的行为视角填补了这一空白。

#### 过程挖掘。

从执行日志中提取模式的思想在业务流程挖掘中有深厚根源 [van der Aalst，2016 (https://arxiv.org/html/2606.15579#bib.bib8)]。过程挖掘通过分析事件日志来发现、监控和改进过程。我们的碱基序列框架可以视为应用于LLM智能体轨迹的过程挖掘，关键区别在于我们的“过程”不是预定义的，而是从LLM决策中涌现的，并且我们的干预（Governor）是实时而非离线操作。

#### LLM安全与护栏。

宪法AI [Bai等人，2022 (https://arxiv.org/html/2606.15579#bib.bib2)] 通过嵌入训练的原则来治理LLM行为。NeMo Guardrails [Rebedea等人，2023 (https://arxiv.org/html/2606.15579#bib.bib4)] 提供了一个可编程工具包来约束LLM输出。这些方法在*语义层面*操作——分析模型说了什么或意图什么。Governor在*序列层面*操作——分析随时间变化的行动模式，而不解释语义内容。这使得它成为语义护栏的补充，并且计算成本显著更低。

#### 智能体自我改进。

RAGEN [Wang等人，2025 (https://arxiv.org/html/2606.15579#bib.bib11)] 通过多轮强化学习训练智能体以改进其行动选择。我们的方法是非学习型的：Governor使用从实证分析推导出的手工规则，仅通过卡方检验自适应阈值。这一设计选择反映了我们的数据规模（\(N=347\)），在这个规模下学习方法会过拟合。我们在§7 (https://arxiv.org/html/2606.15579#S7) 中讨论从规则到学习模型的路径。

## 3 碱基序列框架

### 3.1 碱基编码

我们定义一个碱基分类器函数 \(\mathcal{C}: (\text{tool},\text{args},\text{ctx}) \to \{E,P,V,X\}\)，将每次工具调用映射到一个碱基类型。该分类器是确定性的、有状态的，且每次调用均摊复杂度为 \(O(1)\)。

#### 分类规则。

分类器遵循优先级链：

1. **V**（最高优先级）：当 (a) 读取操作针对最近写入的资源（写后读验证），(b) 同一工具在出错后立即重试，或 (c) 编译/测试/代码检查命令在写操作之后时触发。
2. **X**：当 (a) 工具是已知的读/搜索工具且访问先前未见过的资源，(b) 工具是网络搜索或获取，或 (c) 未知工具的参数签名暗示读取意图时触发。
3. **P**：由LLM本身通过结构化元数据分配，当它执行推理、任务分解或反思时。P无法仅从工具调用可靠推断。
4. **E**（默认）：所有剩余的工具调用——文件写入、命令执行、API变更。

有状态上下文 `ctx` 跟踪成功访问的资源和最近的写操作（滑动窗口大小为10），从而实现对V的写后读验证检测。

#### 形式化表示。

给定一个包含 \(n\) 次工具调用的任务执行，碱基序列为：

\[
S = b_1\text{-}b_2\text{-}\cdots\text{-}b_n, \quad b_i \in \{E,P,V,X\} \tag{1}
\]

例如，一个任务读取目录、读取文件、写入修复并运行测试，产生序列 \(S = X\text{-}X\text{-}E\text{-}V\)。

### 3.2 特征提取

从每个碱基序列 \(S\)，我们提取一个8维特征向量 \(\mathbf{f} \in \mathbb{R}^8\)：

**表1：** 从碱基序列提取的八维特征向量。所有特征可在 \(O(n)\) 内计算，其中 \(n\) 是序列长度（通常 \(<25\)）。前四个特征捕获即时的行为信号（探索惰性、序列长度、局部探索密度、行为稳定性）。后四个特征基于实证发现引入（v2版），捕获结构模式（晚期规划、验证覆盖、执行动量、探索主导）。

### 3.3 轨迹协同设计：将碱基与执行元数据链接

一个关键设计原则是碱基序列并非孤立存在。每个碱基嵌入在一条内容丰富标注的**执行轨迹**记录中，该记录共存储：

- **每工具令牌成本**：每次工具调用的 `(prompt_tokens, completion_tokens)`，实现按碱基类型的令牌归属。
- **上下文注入元数据**：对于每个任务，系统记录*什么*被注入LLM上下文——检索了多少记忆条目（及其相似度分数）、注入了哪些技能（及其语义匹配分数），以及每个分区消耗的总字符预算。
- **轮次级别元数据**：每轮ReAct记录它是否发出了P碱基、进行了多少次工具调用、是否为反思轮次，以及该轮次的工具碱基类型。
- **Governor干预记录**：当规则触发时，轨迹存储规则名称、步骤索引、完整的8维特征快照，以及一个反事实成功率估计。

这种协同设计使得仅凭碱基序列无法实现的横切分析成为可能：

#### 技能注入优化。

通过将碱基模式与 `contextInjectionMeta.skills` 关联，我们可以识别哪些技能注入配置导致更短、更E密集的序列。顶级排名注入技能语义分数 >0.8 的任务产生的序列平均短28%，P比率降低3.1个百分点。

#### 记忆检索质量。

`contextInjectionMeta.memory` 字段揭示，77%的 `searchMemory` 调用（编码为X碱基）未返回结果。每次空检索给序列增加一个X步骤而无信息增益。通过将 `l0AvgScore` 与碱基序列联合跟踪，我们可以量化“浪费的X”成本：在使用记忆的任务中，空记忆检索估计占总令牌消耗的11%。

#### 令牌归属。

每工具 `tokenCost` 字段实现精确归属：在我们的数据集中，X碱基消耗总令牌的41%，E碱基35%，P碱基19%，V碱基5%。结合Governor干预数据，这揭示Governor的主要令牌节省来自减少浪费的X链——X-Brake触发的任务显示X碱基令牌消耗降低38%。

### 3.4 用于跨系统可移植性的适配器接口

XEPV编码在语义层面（探索、执行、规划、验证）而非语法层面（特定工具名称）定义。要将其应用于新的智能体系统，必须提供一个**适配器**，将系统的行动词汇表映射到四种碱基类型：

###### 定义 1 (XEPV适配器)。

适配器是一个函数 \(\mathcal{A}: \mathcal{T} \to \{\text{X},\text{E},\text{P},\text{V}\}\)，其中 \(\mathcal{T}\) 是系统的行动空间。\(\mathcal{A}\) 必须满足：

1. **完备性**：\(\mathcal{T}\) 中的每个行动恰好映射到一个碱基类型。
2. **语义一致性**：收集信息而不修改状态的行动映射到X；修改工件的行动映射到E；验证结果的行动映射到V；无工具调用的轮次映射到P。

在本文中，我们实现两个适配器：一个DunCrew适配器（20+工具，在§4 (https://arxiv.org/html/2606.15579#S4) 中描述）和一个SWE-agent适配器（命令行行动，在§6.7 (https://arxiv.org/html/2606.15579#S6.SS7) 中描述）。SWE-agent适配器说明了一个关键设计考量：SWE-agent的强制行动架构

你的智能体拥有基因组：LLM驱动的自主智能体的序列级行为分析与运行时治理

相似文章

TrajGenAgent：一种用于人类移动轨迹生成的分层LLM智能体

迈向可安全审计的大模型智能体：一种统一的图表示方法

内存增强型LLM智能体中的状态污染

Insights Generator：面向 LLM 智能体的系统性语料级轨迹诊断

@janehu07: https://x.com/janehu07/status/2058359677843599494

提交意见反馈