QUIVER: 量化复合AI系统中扰动传播与分岔的形式化框架
摘要
QUIVER 提出了一种形式化框架,用于量化在结构化为计算图的复合AI系统中扰动的传播方式,定义了灵敏度矩阵、轨迹发散、分岔阈值和分布忠实性,并在生产管道和公共管道上进行了验证。
arXiv:2605.23956v1 公告类型:新
摘要:将多个LLM调用链接成有向计算图的复合AI系统,如今已成为生产级AI的主导架构。尽管这些架构利用了具有混合模式输出的异构节点,但现有框架无法量化扰动如何在此类管道中传播——其中节点是随机的,且执行路径可能在结构上发生分岔。我们提出了QUIVER,一个用于测量图结构LLM管道中扰动传播的形式化框架。该框架定义了:(1) 一个灵敏度矩阵,采用类型分派的距离度量,将边分类为放大器、吸收器或阈值敏感型,并辅以发生提升度;(2) 轨迹发散,将变异分解为数值漂移、结构路径发散和迭代次数发散;(3) 分岔阈值,识别导致结构执行路径改变的最小扰动;以及(4) 分布忠实性,量化每个节点评估数据集何时偏离生产分布。我们在两个生产级企业管道和一个公开的DSPy多跳QA管道(三种结构不同的架构)上进行了验证。通过8200多条检测轨迹(32000多对比较),我们证明QUIVER能够揭示不同架构的独特灵敏度剖面,区分产生相同发散率的机制不同的级联模式,仅从观测数据预测易发生轨迹分岔的节点,并将过时评估伪影定位到聚合指标无法发现的特定节点-字段类别。
查看缓存全文
缓存时间: 2026/05/26 09:03
# QUIVER:一种用于量化复合AI系统中扰动传播与分叉的形式化框架
来源:https://arxiv.org/html/2605.23956
###### 摘要
复合AI系统将多个LLM调用链接成有向计算图,包含并行分支、串行阶段和条件循环,现已成为生产级AI应用的主流架构(Khattab 等人,2024(https://arxiv.org/html/2605.23956#bib.bib7);Yao 等人,2022(https://arxiv.org/html/2605.23956#bib.bib23);Shao 等人,2024(https://arxiv.org/html/2605.23956#bib.bib26))。尽管这些架构利用了具有混合模式输出(从类型化模式到自然语言)的异构节点,但尚无现有框架能够量化扰动如何在这样的流水线中传播——其中节点是随机的,输出类型异构,且执行路径在扰动下可能发生结构性分叉。我们提出 **QUIVER**,一个用于测量计算图结构化LLM流水线中扰动传播的形式化框架。该框架定义了:(1) 一个带有类型分派距离度量的**敏感性矩阵**,将边分类为放大器、吸收器或阈值敏感型,并沿路径乘性组合,辅以**发生提升**来捕获下游漂移的概率(与幅度无关);(2) **三分量轨迹散度**,将变异分解为值漂移、结构路径散度和迭代次数散度;(3) **分叉阈值**,识别导致结构性执行路径变化的最小扰动;(4) **分布保真度**,量化逐节点评估数据集何时偏离生产分布。我们在两个具有不同架构的生产企业级流水线(系统P和系统Q;图1(a)(https://arxiv.org/html/2605.23956#S0.F1.sf1)、图1(b)(https://arxiv.org/html/2605.23956#S0.F1.sf2))上进行了验证,并在一个公开的DSPy(Khattab 等人,2024(https://arxiv.org/html/2605.23956#bib.bib7))多跳问答流水线(HotpotQA(Yang 等人,2018(https://arxiv.org/html/2605.23956#bib.bib28))/ColBERTv2(Santhanam 等人,2022(https://arxiv.org/html/2605.23956#bib.bib27)))上进行了交叉验证——这是第三种结构不同的拓扑结构。通过对8200+条仪器化迹线(产生32000+次配对比较)的分析,我们证明:(a) 该框架揭示了不同架构下不同的敏感性特征,从全局鲁棒性到深度级联放大;(b) 相同的散度率可能源于机制上截然不同的模式,只有通过节点级分解才能区分;(c) 观测性敏感性特征能够预测易发生轨迹分叉的节点;(d) 分布保真度量化了逐节点评估差距,可将陈旧评估伪影定位到具体节点-字段类别,而聚合指标无法揭示这些类别(附录F案例研究)。
(请参考图注)
(a) 系统P架构。
(b) 系统Q架构。
图1:系统P和系统Q的对比架构。
系统P使用并行摄入的第一波(重写器、信号分析、上下文充分性),然后进入具有条件重规划和工具执行的规划器循环。系统Q使用双规划器入口点,通过胜者选择机制路由到快速路径或慢速路径(通过检索、重新排序和生成)。
## 1 引言
将多个LLM调用链接成有向计算图(包含并行分支、串行阶段和条件循环)的复合AI系统,现已成为生产级AI应用的主流架构(Khattab 等人,2024(https://arxiv.org/html/2605.23956#bib.bib7);Yao 等人,2022(https://arxiv.org/html/2605.23956#bib.bib23);Shao 等人,2024(https://arxiv.org/html/2605.23956#bib.bib26))。尽管这些架构跨异构节点,具有混合模式输出(从类型化模式到自然语言),但尚无现有框架能够量化扰动如何在其中传播——其中节点是随机的,输出类型异构,且执行路径在扰动下可能发生结构性分叉。当生产流水线返回低质量响应时,从业者无法确定哪个节点是责任方,质量是沿着一系列小扰动连续下降,还是某个上游变化跨越了阈值,导致执行路径翻转。端到端评估能检测症状但不能定位原因;孤立的逐节点评估将每个组件与可能不反映其实际接收的输入进行测试,从而产生无法预测生产行为的质量估计。在具有条件循环的流水线中(Yao 等人,2022(https://arxiv.org/html/2605.23956#bib.bib23)),问题更加复杂:小的上游扰动可能激活不同的节点、执行不同的循环迭代,或检索完全不同的知识。现有的优化和评估工具(Khattab 等人,2024(https://arxiv.org/html/2605.23956#bib.bib7);Yuksekgonul 等人,2024(https://arxiv.org/html/2605.23956#bib.bib8);Cheng 等人,2024(https://arxiv.org/html/2605.23956#bib.bib9))将节点视为独立个体,而不测量扰动如何沿边传播,也不测量结构性分叉发生在何处(第3节)。
我们提出 **QUIVER**,一个用于测量计算图结构化LLM流水线中扰动传播的形式化框架。该框架包含四个贡献:(1) 一个**敏感性矩阵**,带有类型分派的距离度量,将边分类为放大器、吸收器或阈值敏感型,并辅以**发生提升**来捕获传播概率(与幅度无关);(2) **三分量轨迹散度**,将变异分解为值漂移、结构路径散度和迭代次数散度;(3) **分叉阈值**,识别导致结构性执行路径变化的最小扰动;(4) **分布保真度**,量化评估数据集何时偏离生产分布。我们还发布了一个程序化迹线接口,用于在任何流水线上自动计算所有度量。我们在两个具有不同架构的生产企业级流水线(图1(https://arxiv.org/html/2605.23956#S0.F1))上进行了验证:系统P——一个复杂图,包含并行摄入、检索工具选择和一个条件重规划循环(k_max=5);系统Q——一个双规划器流水线,具有并行重新排序和快速/慢速路径路由。此外,我们在一个公开的DSPy多跳问答流水线上进行了交叉验证(基于HotpotQA和ColBERTv2检索),这是一个严格的顺序链,提供了第三种结构不同的拓扑。通过对8200+条仪器化迹线(产生32000+次配对比较,包括观测性和干预性)的分析,我们证明:(a) 该框架揭示了不同架构下不同的敏感性特征,从全局鲁棒性到深度级联放大;(b) 相同的散度率可能源于机制上截然不同的级联模式,只有通过节点级分解才能区分;(c) 观测性特征能够预测哪些节点会在扰动下分叉;(d) 分布保真度能够检测出因配置变化导致的、此前无法检测的评估失效。
## 2 框架
我们定义用于测量复合LLM流水线中扰动传播的形式化对象。扩展讨论、工作示例和估计细节见附录A和B。
### 2.1 流水线图与类型化输出空间
**定义1(类型化流水线图)**。一个复合LLM流水线是一个元组 \( \mathcal{G} = (V, E, \mathcal{T}, \mathcal{F}) \),其中
\( V = \{v_1, \ldots, v_n\} \) 是有限节点集,
\( E \subseteq V \times V \) 是表示数据流的有向边集,
\( \mathcal{T} = \{T_1, \ldots, T_n\} \) 为每个节点 \( v_i \) 分配一个类型化输出空间 \( T_i \),
\( \mathcal{F} = \{f_1, \ldots, f_n\} \) 为每个节点分配一个随机函数:
\[
f_i: \prod_{j \in \mathrm{pa}(i)} T_j \rightarrow \Delta(T_i) \tag{1}
\]
其中 \( \mathrm{pa}(i) = \{j: (v_j, v_i) \in E\} \),\( \Delta(T_i) \) 是 \( T_i \) 上概率分布的集合。类型化输出空间可包括模式化对象、有序列表、分类值或非结构化文本。外部输入被建模为没有父节点的源节点。
### 2.2 类型分派距离度量
**定义2(类型分派距离)**。对于每个类型化输出空间 \( T_i \),定义 \( d_i: T_i \times T_i \rightarrow \mathbb{R}_{\geq 0} \),满足非负性和不可区分者的同一性。对于模式化空间 \( T_i = T_i^{(1)} \times \cdots \times T_i^{(m)} \):
\[
d_i(x, y) = \sum_{k=1}^m w_k \cdot d_i^{(k)}(x^{(k)}, y^{(k)}) \tag{2}
\]
其中 \( w_k \geq 0 \),\( \sum_k w_k = 1 \),每个 \( d_i^{(k)} \) 适用于该字段类型:分类字段用 \( \mathbf{1}[a \neq b] \),集合值用 \( 1 - |A \cap B| / |A \cup B| \),有序列表用归一化编辑距离,数值字段用归一化绝对差,文本字段用 \( 1 - \cos(\phi(s), \phi(t)) \)。逐字段权重 \( w_k \) 可编码应用先验(例如,路由决策字段权重高于描述性上下文字段);权重和逐类型核的选择与应用相关,且与下面定义的边分类正交。
### 2.3 敏感性矩阵
**定义3(边敏感性)**。对于每条边 \( (v_i, v_j) \in E \):
\[
\sigma_{ij} = \mathbb{E} \left[ \frac{d_j\big(f_j(\mathbf{x}), \; f_j(\mathbf{x}')\big)}{d_i(x_i, x_i')} \right] \tag{3}
\]
其中 \( \mathbf{x}, \mathbf{x}' \) 仅在来自 \( v_i \) 的分量上不同,且期望仅限于满足 \( d_i > \varepsilon \) 的配对。将边分类为**放大器**(\( \sigma > 1 \))、**吸收器**(\( \sigma < 1 \))或**不敏感**(\( \sigma \approx 0 \))。\( \hat{\sigma} \) 接近1的边也称为**近单位**:它们位于放大器/吸收器边界,此时二分类对逐字段核和权重选择最为敏感。带 \( |\hat{\sigma} - 1| < \delta \) 的区间(\( \delta \) 由应用选择)捕获这些边;我们会在使用处报告 \( \delta \)。标量 \( \sigma_{ij} \) 可能汇总多模态分布;我们建议检查完整的比率分布(第5节)。
**定义4(发生提升)**。对于每条边 \( (v_i, v_j) \in E \):
\[
\lambda_{ij} = P\big(d_j > 0 \mid d_i > 0\big) - P\big(d_j > 0 \mid d_i = 0\big) \tag{4}
\]
捕获下游漂移的**概率**,补充 \( \sigma_{ij} \) 捕获的**幅度**。这两个度量是解耦的,携带关于边的不同信息(第5节)。
**定义5(敏感性矩阵)**。\( \Sigma \in \mathbb{R}_{\geq 0}^{n \times n} \),其中若 \( (v_i, v_j) \in E \) 则 \( \Sigma_{ij} = \sigma_{ij} \),否则为0。
**定义6(路径敏感性)**。对于一条有向路径 \( p = (v_{i_1}, \ldots, v_{i_k}) \):
\[
\sigma(p) = \prod_{(v_{i_l}, v_{i_{l+1}}) \in p} \sigma_{i_l, i_{l+1}} \tag{5}
\]
一条路径若 \( \sigma(p) > 1 \) 则称为**级联放大器**。所有源到汇路径中的最大值称为**关键放大路径**。当并行分支重新汇聚时,交互项可通过多元回归估计(附录B)。
### 2.4 带循环的流水线与轨迹分叉
我们将框架扩展到具有条件循环的流水线(Yao 等人,2022(https://arxiv.org/html/2605.23956#bib.bib23))。循环体 \( L \subseteq V \) 被展开为索引副本 \( L^{(1)}, \ldots, L^{(k^*)} \),其中 \( k^* \leq k_{\max} \)。
**定义7(迭代动作)**。在每次迭代 \( t \),循环控制器从有限动作集 \( \mathcal{A} \) 中产生一个动作 \( a^{(t)} \in \mathcal{A} \)(例如 EXECUTE、RETRY、GENERATE、COMPOSE),并附带辅助参数 \( Q^{(t)} \)。迭代拓扑为 \( g^{(t)} = (a^{(t)}, Q^{(t)}) \);轨迹拓扑为 \( G^* = (k^*, g^{(1)}, \ldots, g^{(k^*)}) \)。
**定义8(轨迹)**。\( \tau = (o_1, \ldots, o_n, o_L^{(1)}, \ldots, o_L^{(k^*)}) \),其中 \( o_i \in T_i \),\( o_L^{(t)} \) 是第 \( t \) 次迭代的输出元组。
**定义9(轨迹散度)**。对于轨迹 \( \tau, \tau' \):
\[
D(\tau, \tau') = (D_{\mathrm{iter}}, \; D_{\mathrm{shape}}, \; D_{\mathrm{output}}) \tag{6}
\]
其中
\( D_{\mathrm{iter}} = \sum_i |c_i - c_i'| \),\( c_i \) 是轨迹 \( \tau \) 中节点 \( v_i \) 的调用次数(这泛化了循环迭代计数:对于循环体 \( L \),\( \sum_{i \in L} |c_i - c_i'| \) 当迭代形状匹配时恢复 \( |L| \cdot |k^* - k^{*'}| \),否则还能捕获非循环流水线如重排序器或工具执行调用中子阶段调用计数散度),
\( D_{\mathrm{shape}} = \sum_{t=1}^{\min(k^*, k^{*'})} \mathbf{1}[g^{(t)} \neq g'^{(t)}] \),
\( D_{\mathrm{output}} = \sum_i w_i \cdot d_i(o_i, o_i') \)。
这三个分量分别捕获逐节点的**计数**、**顺序**和**值**散度。我们额外从轨迹中导出一个节点存在指示符 \( D_{\mathrm{struct}}(\tau, \tau') := \mathbf{1}[\{v: v \in \tau\} \neq \{v: v \in \tau'\}] \) 作为汇总统计量;它不是 \( D \) 的第四个分量,但与之一起报告,因为仅靠 \( D_{\mathrm{iter}} \) 和 \( D_{\mathrm{shape}} \) 无法标记激活节点集是否不同。这些指示符可能同时出现。
对于无循环流水线,该构造自然扩展:我们取 \( k^* = 1 \),定义 \( g^{(1)} = (a^{(1)}, Q^{(1)}) \) 为迹线的**条件分支激活向量**——即 \( \tau \) 中所有分支/路由决策的实现值(条件门的哪些支路被采用,哪些可选节点被激活)。\( D_{\mathrm{shape}} = \mathbf{1}[g^{(1)} \neq g'^{(1)}] \) 则比较 \( \tau, \tau' \) 之间的分支激活。我们将这视为定义7的自然扩展,而非额外的形式化构造;循环和无循环情况使用相同的 \( g^{(t)} \) 指示符。
**定义10(分叉阈值)**。对于位于循环或条件分支上游的节点 \( v_i \):
\[
\beta_{\mathrm{shape}}(v_i) = \inf\{ d_i(f_i(x), f_i(x')) : D_{\mathrm{shape}} > 0 \} \tag{7}
\]
\( \beta_{\mathrm{iter}}(v_i) \) 类似地定义,用于 \( D_{\mathrm{iter}} > 0 \)。相似文章
QUIVER:量子信息视图增强大型机器学习模型的表示
本文介绍了QUIVER,一种通过从量子费舍信息矩阵中提取的量子启发特征来丰富经典机器学习模型的范式,并在分子属性预测和喷注味分类基准上展示了改进效果。
物理可行的世界模型:为查询条件化具身智能辩护
本文论证了具身AI的世界模型必须是物理可行的且查询条件化的,重点在于为每个干预查询识别最简单的物理抽象,而不是仅仅预测观察结果。
Transformer 真的需要三个投影矩阵吗?QKV 变体的系统性研究
本文系统研究了 Transformer 中 QKV 投影共享的各种变体,发现共享键和值投影(Q-K=V)可在仅造成 3.1% 困惑度下降的情况下实现 50% 的 KV 缓存压缩,结合 GQA/MQA 最高可达 96.9% 的缓存压缩率——以极小的质量损失实现实用的端侧推理。
用于检测AI智能体科学理论转变的层论传输与障碍
本文开发了一个有限层论框架,通过测量表示语境间的传输和障碍来检测AI智能体的科学理论转变,并在一个旨在区分源语言内部变形与源语言扩展的基准上进行了评估。
VAKRA 深度解析:智能体的推理、工具使用与失效模式
本文介绍 VAKRA,一个用于评估企业级环境中 AI 智能体推理与工具使用能力的可执行基准。文章分析了各类失效模式,并详细阐述了该基准涉及 API 链式调用与文档检索的结构设计。