大语言模型的序贯统计推断：表征、有效性与监控

arXiv cs.LG 2026/06/09 04:00 论文

摘要

本文主张采用序贯推断框架来增强LLM的可信度，通过将交互建模为依赖随机过程，确保在重复使用下的有效性，并实现行为变化的在线监控。

arXiv:2606.07624v1 Announce Type: new 摘要：本文论述了序贯统计推断如何自然地有助于提升LLM的可信度。在部署中，LLM系统被反复查询，依赖于不断变化的上下文，并整合用户或工具反馈，可能在模型更新或分布变化后出现行为变化。讨论围绕三个任务展开：表征——将LLM交互建模为依赖的随机过程而非孤立的提示--响应对；有效性——开发在依赖、重复使用和自适应下仍有意义的不确定性保证；监控——使用序贯警报和变点检测来识别校准、幻觉率、拒绝行为、公平性或其他任务相关属性的变化。这一视角将可信LLM部署视为统计过程控制问题，从而补充了近期综述。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:51

# 大型语言模型的序列统计推断：表征、有效性与监控

来源：https://arxiv.org/html/2606.07624

Yao Xie  H. Milton Stewart 工业与系统工程学学院 佐治亚理工学院

###### 摘要

本文讨论认为，序列统计推断能够自然地促进大型语言模型（LLM）的可信度。在部署阶段，LLM 系统会被反复查询，其状态取决于不断演变的上下文，会整合用户或工具的反馈，并且可能在模型更新或分布变化后表现出行为上的转变。讨论围绕三项任务展开：*表征*——将 LLM 交互建模为相互依赖的随机过程，而非孤立的提示-响应配对；*有效性*——开发在依赖关系、反复使用和自适应调整下仍然有意义的不确定性保证；以及*监控*——利用序列警报和变点检测来识别校准、幻觉率、拒绝行为、公平性或其他任务相关属性的变化。这一视角通过将可信的 LLM 部署视为一个统计过程控制问题，对近期相关综述形成了补充。

关键词：大型语言模型；序列推断；共形预测；变点检测；在线监控；相依数据

## 1 引言

Ji 等人 (2026 (https://arxiv.org/html/2606.07624#bib.bib6)) 的综述有力地论证了统计学家可以在 LLM 研究中发挥重要作用，尤其是在不确定性量化、共形预测、可解释性、公平性、隐私以及人机协作数据科学等领域。本文的讨论在此基础上构建，聚焦于贯穿这些主题的其中一个统计结构：序列推断。

大型语言模型 (LLM) 通常通过下一个token预测的视角来介绍。这是自然而然的，且在数学上很方便，但它仅对系统在实际中的行为提供了部分的统计描述。一旦部署，LLM 会被反复查询，其状态取决于不断演变的上下文，与用户和工具交互，并影响后续的提示和决策。因此，其输出不应被视为孤立的预测，而应被视为一个相互依赖且能自适应调整的随机过程的一部分。

本文所发展的视角是由序列推断、变点检测以及适用于相依数据的共形推断所塑造的。从这个角度看，可信的 LLM 系统不应仅仅被视为一个静态不确定性量化问题，还应被视为一个在线有效性、自适应反馈以及部署后监控的问题。

本文讨论推进了一个简单的观点：LLM 一个重要的统计层是 *序列推断层*。该层包含三个相互关联的组成部分。首先，LLM 行为应在依赖交互轨迹的层面进行表征，而非孤立的提示-响应配对。其次，可靠性应被界定为在依赖关系、反复使用和自适应交互下仍然有意义的有效性保证。第三，已部署的系统应随时间受到监控，利用序列警报和变点检测来识别校准、安全、拒绝行为或其他任务相关属性的突变。

换言之，序列视角将分析单位从单个提示-响应配对转变为交互轨迹；将可靠性目标从对单个答案的信心转变为依赖关系下的在线有效性；将部署问题从“这个答案好吗？”转变为“系统的行为改变了吗？”这种框架旨在补充 Ji 等人 (2026 (https://arxiv.org/html/2606.07624#bib.bib6)) 的广泛综述，而非取代它。序列视角并非独立于他们的议程；而是明确了贯穿其综述中多个主题（包括不确定性量化、共形预测、模型适应、公平性和人机协作）的一个共同结构。

本文接下来的部分将阐述这一观点的三个组成部分。第 2 节 (https://arxiv.org/html/2606.07624#S2) 主张对 LLM 行为进行序列统计表征。第 3 节 (https://arxiv.org/html/2606.07624#S3) 将不确定性重新定义为依赖关系下的在线有效性问题。第 4 节 (https://arxiv.org/html/2606.07624#S4) 论证监控和变点检测应成为已部署 LLM 系统的核心工具。

## 2 表征：一种序列视角

对 LLM 的常规描述始于一个 token 序列 \(x_1, x_2, \dots, x_T\) 以及给定过去时下一个 token 的条件分布。从语言建模的角度看，这是正确的原始元素。然而，从统计部署的角度看，这往往是不够的。在实际使用中，目标对象不仅仅是 token 序列，而是包含提示、检索到的上下文、可观察的中间输出、工具输出、用户反馈和未来动作的完整交互历史。

一个有益的统计抽象是将 LLM 驱动的工作流程视为一个相依过程。假设每次完成的交互被记录为 \(X_t = (P_t, R_t, U_t)\)，其中 \(P_t\) 是阶段 \(t\) 的提示或上下文，\(R_t\) 是模型响应，\(U_t\) 是响应后观察到的、并可能被纳入未来阶段的任何用户、工具或环境反馈。那么交互历史及相关的过滤为 \(\mathcal{H}_t = (X_1,\dots,X_t)\) 和 \(\mathcal{F}_t = \sigma(X_1,\dots,X_t)\)，其中 \(\mathcal{F}_0\) 表示部署开始前或交互流开始前的初始可用信息。在阶段 \(t\)，提示或上下文 \(P_t\) 本身可能是基于 \(\mathcal{F}_{t-1}\) 自适应选择的。因此，响应应更好地通过其条件分布 \(R_t \mid (P_t, \mathcal{F}_{t-1}) \sim Q_t(\cdot \mid P_t, \mathcal{F}_{t-1})\) 来考量，而非作为孤立的一次抽样。核 \(Q_t\) 可能反映了模型、解码规则、检索系统、部署模式等。

这种重新框架之所以重要，有以下几点原因。它阐明了依赖结构：多轮提示、检索增强、工具使用和交互式编辑都会产生难以证明可交换性的历史。它也改变了应预测或验证的对象。在许多场景中，目标对象并非 token 的概率，而是轨迹级别输出（例如推荐、诊断、总结或一系列动作）的可靠性。最后，它为随机过程、过滤、在线推断和状态演化等语言创建了自然的接口。

这一视角也将 LLM 置于统计学家熟悉的更广泛的依赖序列模型类别中。例如，时间序列、时空过程、点过程、状态空间模型和序列广义线性模型都是依赖关系、部分观测和演化上下文起重要作用的系统例子。近期关于序列广义线性和非线性时间序列模型的工作提供了一个相关的统计视角 (Juditsky et al., 2023 (https://arxiv.org/html/2606.07624#bib.bib8); Zhou and Xie, 2025 (https://arxiv.org/html/2606.07624#bib.bib13))。可以将下一个token预测视为序列建模的一个特定实例，尽管其状态极其丰富且维数很高。

一个相关的问题是表征的选择。我们可以区分分析者可以观察到的交互历史与模型内部使用的潜在计算表征。对于统计推断而言，可观察的历史是更自然的对象：它是有效性、监控和审计可以基于的记录。内部表征在可用时可能提供有用的附加信息（例如用于诊断或不确定性分数），但它们通常是特定于模型的，并且在已部署的系统中可能无法访问。这表明，LLM 部署的统计程序应首先在可观察轨迹的层面上制定，将内部表征仅用作可选的细化。

这种表征也明确了可以监控什么。从每次完成的交互中，可以定义一个特定于任务的分数 \(S_t = \phi_t(X_t, \mathcal{F}_{t-1})\)，其中 \(S_t \in \mathcal{F}_t\)，并且 \(S_t\) 总结了已部署系统的某个感兴趣的统计属性，例如可靠性、有效性、安全性或与外部反馈的对齐。那么序列 \(\{S_t\}_{t \ge 1}\) 就是交互过程的一个低维统计摘要，为丰富的 LLM 轨迹与用于在线推断和变点检测的经典工具之间架起了桥梁。

简而言之，对于统计学家而言，不应将 LLM 仅仅视为一个单步概率预测器。更自然的方式是将它表征为一个随着上下文、交互和反馈而演化的相依随机过程。如果没有这种表征上的转变，后续的有效性和监控问题就更难清晰地提出。

## 3 有效性：序列不确定性量化

Ji 等人 (2026 (https://arxiv.org/html/2606.07624#bib.bib6)) 的一个核心主题是，统计学家可以通过不确定性量化、共形预测和相关的推断工具为可信的 LLM 做出贡献。序列视角深化了这一观点：在部署中，不确定性不仅关乎单个响应，还关乎一个统计保证在反复、依赖且自适应的交互中是否仍然有意义。

区分 *置信度* 和 *有效性* 是有益的。置信度通常是一个面向模型的数量，源自 token 概率、熵、自我一致性或辅助评分系统。有效性是一个面向程序的数量：它询问一个不确定性陈述在感兴趣的部署条件下是否具有宣称的统计解释。对于 LLM，这一区别很重要，因为一个响应可能看起来自信，但从事实正确性、任务成功或下游损失的角度看，校准效果可能很差。

共形预测之所以有吸引力，是因为它提供了外部可检查的不确定性保证。然而，其经典形式依赖于可交换性。这一假设对于已部署的 LLM 系统难以成立：提示随时间到达，用户会适应之前的响应，检索源会变化，工具会产生反馈循环，模型更新可能改变响应分布。这种可交换性的缺失并不是放弃共形思想的理由。正是这种情境催生了在线共形推断、分布偏移下的共形推断以及适用于依赖时间序列数据的共形预测 (Xu and Xie, 2021 (https://arxiv.org/html/2606.07624#bib.bib12); Gibbs and Candès, 2024 (https://arxiv.org/html/2606.07624#bib.bib3); Jiang et al., 2026 (https://arxiv.org/html/2606.07624#bib.bib7))。

使用第 2 节 (https://arxiv.org/html/2606.07624#S2) 的符号，每次交互可以表示为 \(X_t = (P_t, R_t, U_t)\)，适应于过滤 \(\mathcal{F}_t\)。一个特定于任务的分数 \(S_t = \phi_t(X_t, \mathcal{F}_{t-1})\)，其中 \(S_t \in \mathcal{F}_t\)，可以总结一个感兴趣的属性，例如可靠性、有效性、安全性或与外部反馈的一致性。根据应用不同，\(S_t\) 可以作为一致性分数、校准误差、答案质量分数或下游损失。

关键点在于，有效性应该在整个流 \(\{S_t\}_{t \ge 1}\) 上进行评估，而不仅仅针对孤立的提示。校准可能需要考虑局部历史、上下文、用户群体、检索源、模型版本和部署模式。反复提示或选择性使用模型输出也带来了可选停止问题，这使得随时有效推理成为一种自然的选择 (Howard et al., 2021 (https://arxiv.org/html/2606.07624#bib.bib5))。

因此，LLM 的有效性问题有多个层次：单个响应的不确定性、特定任务分数的校准保证，以及自适应交互流上的有效性。最后一个层次在部署中通常是最相关的。一旦构建了这样的序列分数，它也成为了监控的基本信号。在这个意义上，有效性提供了在线评估和变化检测可以操作的统计量。

## 4 通过在线变点检测进行监控

Ji 等人 (2026 (https://arxiv.org/html/2606.07624#bib.bib6)) 关于可信 LLM 的讨论提出了一个部署后的问题。即使一个 LLM 系统开始时的校准、不确定性量化、公平性行为和任务性能均可接受，这些属性在部署后也可能不稳定。提示分布会变化，用户群体会改变，检索语料库会演化，模型更新会改变行为，并且可能出现对抗性使用模式。因此，LLM 可信赖性的统计理论不仅需要发布前的评估，还需要在线监控。

操作性问题在于系统是否已进入一个新状态。假设每次完成的交互产生一个监控分数 \(Z_t\)，总结了诸如可靠性、校准、安全性、与外部反馈的一致性或任务性能等属性。重要的一点并非存在一个通用的分数，而是丰富的 LLM 工作流程通常可以用一个时间索引序列 \(\{Z_t\}_{t \ge 1}\) 来概括，从而可以进行序列检验。

一个在线监控程序可以用一个警报时间来表示，数学上是一个停时，\(\tau = \inf\{t \ge 1: W_t(Z_1,\dots,Z_t) > b\}\)，其中 \(W_t\) 是一个检测统计量，\(b\) 被选为在参考状态下控制误报警。这一公式将 LLM 监控与经典的在线变点检测联系起来，后者旨在检测从基线分布到变化后分布的转变，同时控制误报警并最小化检测延迟 (Page, 1954 (https://arxiv.org/html/2606.07624#bib.bib9); Basseville and Nikiforov, 1993 (https://arxiv.org/html/2606.07624#bib.bib1))。现代程序还在此权衡中考虑了内存使用和计算成本 (Wang and Xie, 2024 (https://arxiv.org/html/2606.07624#bib.bib11))。在最简单的模型中，在未知变化时间 \(\kappa\) 之前，\(Z_t \sim F_0\)，在 \(\kappa\) 之后，\(Z_t \sim F_1\)。对于 LLM 交互流，更相关的公式可能是在给定过去条件下 \(Z_t\) 的条件分布发生变化，且变化后可能存在非平稳性，正如相依数据下的序列变点检测公式那样 (Tartakovsky et al., 2014 (https://arxiv.org/html/2606.07624#bib.bib10))。

这一视角与机器学习中的概念漂移文献相关，但 LLM 场景更为广泛。传统概念漂移通常关注数据生成分布的变化，或在线预测问题中输入与标签之间关系的变化 (Gama et al., 2014 (https://arxiv.org/html/2606.07624#bib.bib2))。在 LLM 部署中，漂移不仅可能发生在提示分布中，还可能发生在模型、检索系统、工具环境、用户反馈循环或管理响应的策略中……

大语言模型的序贯统计推断：表征、有效性与监控

相似文章

@pallavishekhar_: https://x.com/pallavishekhar_/status/2058460434035060758

大规模语言模型的概率归因

从大型语言模型的序列内部离散中学习不确定性

迷宫与线索：重新思考大语言模型中序列知识编辑的正则化

大语言模型不确定性中的人类对齐、校准与激活模式

提交意见反馈