将未来行为预测作为学习任务

arXiv cs.AI 2026/06/11 04:00 论文

摘要

本文提出了 Behavior Forecasters，一种从推理轨迹中预测 LRM 未来行为（如答案一致性和输入敏感性）的学习方法，以更低的成本超越了 GPT-5.4 和 Claude Opus 4.6。

arXiv:2606.11445v1 公告类型：新摘要：对 AI 系统的信任通常基于对其工作原理的解释，然后利用这些解释来预测系统在新输入上的行为。对于大型推理模型（LRM），这条常规路径尤其难以遵循：针对单 token 生成的解释方法无法自然地推广到长轨迹，而且这些轨迹本身在作为自然语言阅读时往往不够忠实。我们提出了一种绕过解释步骤的替代方案：将行为预测视为一个可学习任务，并训练 Behavior Forecasters，它在单条推理轨迹上运行，以做出通常需要从解释中获得的相同预测。预测器的训练数据通过查询 LRM 获得，无需人工标注，其推理通过单次前向传播完成。我们在两个任务上实例化了该方法：LRM 在重新运行时重复其答案的可能性，以及移除输入部分后其答案的变化。我们在三个不同的推理数据集上对这两个任务进行了评估，发现经过训练的 Behavior Forecasters 在预测准确性上优于阅读相同轨迹的 GPT-5.4 和 Claude Opus-4.6（作为朴素阅读者），而推理成本仅为它们的极小一部分。我们发现，端到端微调骨干网络并使其从目标 LRM 初始化对于获得强性能都是必要的。这些结果表明，推理轨迹所携带的关于 LRM 未来行为的信息超出了朴素阅读所能传达的范围。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 将未来行为预测作为一项学习任务

**来源**：https://arxiv.org/html/2606.11445

Mosh Levy 巴伊兰大学 Constellation [email protected] & Yoav Goldberg 巴伊兰大学 艾伦人工智能研究所 & Asa Cooper Stickland 英国人工智能安全研究所

###### 摘要

对AI系统的信任通常建立在其工作原理的解释之上，人们利用这些解释来预测模型在新输入上的行为。对于大型推理模型（LRMs）而言，这条常规路线尤其难以遵循：针对单次令牌生成设计的解释方法无法自然地推广到长轨迹，而且这些轨迹本身在作为自然语言阅读时往往并不忠实。我们提出一种绕过解释步骤的替代方案：将行为预测视为一项可学习的任务，训练一个*行为预测器*，它仅基于单条推理轨迹就能做出通常需要从解释中获取的预测。预测器的训练数据通过查询LRM自动获取，无需人工标注，其推理只需一次前向传播。我们在两个任务上实例化了该方法：预测LRM在重新运行时重复其答案的可能性，以及移除输入部分会如何改变其答案。我们在三个不同的推理数据集上对这两个任务进行了评估，发现训练后的行为预测器比GPT-5.4和Claude Opus 4.6以朴素方式阅读相同轨迹的准确性更高，而推理成本仅为它们的一小部分。我们还发现，端到端微调主干网络并利用目标LRM初始化主干网络，对于获得强性能都是必要的。这些结果表明，推理轨迹所携带的关于LRM未来行为的信息，超出了朴素阅读所能传达的范围。††代码和数据：https://github.com/Mosh0110/behavior-forecasters

## 1 引言

依赖AI系统需要预判它在新输入上的行为。通常，这种预判基于对模型计算过程的解释，解释被广泛视为一种预测模型在新输入或新场景下如何行为的工具（Hempel and Oppenheim,1948 (https://arxiv.org/html/2606.11445#bib.bib46); Douglas,2009 (https://arxiv.org/html/2606.11445#bib.bib47); Jacovi et al.,2021 (https://arxiv.org/html/2606.11445#bib.bib48); Doshi-Velez and Kim,2017 (https://arxiv.org/html/2606.11445#bib.bib60); Lipton,2018 (https://arxiv.org/html/2606.11445#bib.bib136)）。这种观点在机器学习研究者如何操作化和评估解释的方式中得到了体现——他们通过解释所支持的预测准确性来评判（Miller,2019 (https://arxiv.org/html/2606.11445#bib.bib10)）。能驱动部署决策的最基本粒度是针对单个输入的预测，例如模型在多次运行下的答案一致性，或在输入的某种反事实变体下答案会如何变化（Ribeiro et al.,2016 (https://arxiv.org/html/2606.11445#bib.bib132); Lundberg and Lee,2017 (https://arxiv.org/html/2606.11445#bib.bib133); Sundararajan et al.,2017 (https://arxiv.org/html/2606.11445#bib.bib134); Alvarez-Melis and Jaakkola,2018 (https://arxiv.org/html/2606.11445#bib.bib5); Barredo Arrieta et al.,2020 (https://arxiv.org/html/2606.11445#bib.bib135)）。这些针对输入的行为预测正是本文的重点（第2.2节 (https://arxiv.org/html/2606.11445#S2.SS2)）。

对于大型推理模型（LRMs），能实现这类预测的解释尤其难以获得，因为这类模型在给出最终答案之前会生成一长串推理令牌（例如，O1 (OpenAI,2024 (https://arxiv.org/html/2606.11445#bib.bib32))，R1 (DeepSeek-AI et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib34))）（第2.3节 (https://arxiv.org/html/2606.11445#S2.SS3)）。为单次前向传播开发的方法只能告诉我们一个令牌的生成情况，这些方法无法自然扩展到这些模型发出的长推理轨迹。尽管推理令牌以自然语言形式呈现，但它们往往并非产生答案的计算过程的忠实描述（参见第2.3.1节 (https://arxiv.org/html/2606.11445#S2.SS3.SSS1) 的支持文献），因此对轨迹的*朴素阅读*可能导致错误的预测。这使得对LRM进行行为预测时，剩下两种不令人满意的选择：要么朴素地阅读这些令牌并接受不可靠的结果，要么完全忽略它们。

在本文中，我们提出一种替代方案，不依赖于解释来进行此类预测：训练一个外部模型，直接从单条推理轨迹预测未来行为（第3节 (https://arxiv.org/html/2606.11445#S3)）。我们将这个训练好的模型称为*行为预测器*：它依赖推理轨迹中的令牌来携带底层计算的信息，但不需要这些信息能够通过将令牌作为文本阅读来恢复（Levy et al.,2025b (https://arxiv.org/html/2606.11445#bib.bib1)）。我们将行为预测视为一个有监督学习问题，其训练数据通过查询LRM自动生成，无需人工标注，从而产生真实的行为标签。

参见标题

图1：从单条推理轨迹进行行为预测。给定目标LRM的一条观察轨迹（提示、推理、答案），训练好的行为预测器通过一次前向传播预测LRM未来行为的一个属性：LRM重复该答案的可能性（重运行一致性），或每个提示部分导致该答案的可能性（反事实敏感性）。行为预测器使用通过查询LRM获得的行为标签，在大量此类轨迹上进行训练。以朴素方式阅读相同轨迹的前沿LLM依赖于文本的忠实性，计算量更大且无法扩展，同时预测准确性较低。

给定目标LRM在感兴趣输入上的一条推理轨迹，行为预测器通过一次前向传播预测LRM未来行为的一个统计量；我们在两个这样的统计量上实例化它：*重运行一致性*（基于相同输入上的多次运行计算）和*反事实敏感性*（基于输入的扰动计算）。我们从目标LRM初始化预测器，附加一个任务特定的预测头，并联合训练它们。我们展示了行为预测器成功学习了这两个任务（第4节 (https://arxiv.org/html/2606.11445#S4)）。我们在三个推理数据集上对这两个任务评估了该方法。训练后的行为预测器比以朴素方式阅读相同轨迹的GPT-5.4和Claude Opus 4.6更准确，而消耗的计算资源估计不到它们的1/10,000。我们还展示了：在两个任务上，在两个数据集上训练的预测器最多经过600步微调就能迁移到第三个未见过的数据集；并且在单个数据集族内，它们无需任何微调就能泛化到未见过的变体。反事实敏感性预测器还能迁移到预测LRM是否依赖用户提供的提示，这是评估推理文本忠实性的常用方法（Turpin et al.,2023 (https://arxiv.org/html/2606.11445#bib.bib51); Chen et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib120); Chua and Evans,2025 (https://arxiv.org/html/2606.11445#bib.bib67); Marioriyad et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib52)）。接着我们对预测器进行消融实验，以确定哪些架构和训练选择是重要的（第5节 (https://arxiv.org/html/2606.11445#S5)）。仅训练预测头、从随机初始化的主干开始、或从输入中移除推理令牌，都会降低性能；而提示、推理和答案在输入中的最佳排列方式取决于具体任务。

我们的发现表明，LRM行为的关键局部属性（通常通过耗时的重新采样或不可靠的推理令牌阅读来探究）可以从单条观察轨迹中预测出来。我们将此视为将行为预测作为一项独立可学习任务进行研究的动机。更广泛地说，这些发现表明推理轨迹所携带的关于LRM未来行为的信息，超出了朴素阅读所能传达的范围，这促使我们将推理轨迹视为具有可学习模式的数据，而非有待阅读的自然语言。

## 2 针对LRM的行为预测

本节中，我们阐述行为预测作为通往AI模型信任的途径的动机，形式化本文所解决的任务，并讨论为什么现有方法促使我们为LRM寻找新方法。

### 2.1 通过行为预测建立信任

对AI模型的信任取决于用户预测它们在未来输入上如何行为的能力（Lee and See,2004 (https://arxiv.org/html/2606.11445#bib.bib150); Hoff and Bashir,2015 (https://arxiv.org/html/2606.11445#bib.bib151); Jacovi et al.,2021 (https://arxiv.org/html/2606.11445#bib.bib48); Zhou et al.,2026 (https://arxiv.org/html/2606.11445#bib.bib144)）。被视为“解释”的概念被广泛视为对系统进行此类预测的工具（Hempel and Oppenheim,1948 (https://arxiv.org/html/2606.11445#bib.bib46); Douglas,2009 (https://arxiv.org/html/2606.11445#bib.bib47)）：了解系统的运作方式使得能够预测它在新输入或新场景下将如何行为。机器学习研究者也采用同样的观点，通过解释所支持的预测准确性来操作化和评估解释（Doshi-Velez and Kim,2017 (https://arxiv.org/html/2606.11445#bib.bib60); Miller,2019 (https://arxiv.org/html/2606.11445#bib.bib10)）。

### 2.2 从单条轨迹预测行为

我们关注预测模型在给定输入上的行为属性，例如模型在多次运行下答案的一致性，或答案对输入的反事实扰动的敏感性，这些均基于单次观察运行（Ribeiro et al.,2016 (https://arxiv.org/html/2606.11445#bib.bib132); Lundberg and Lee,2017 (https://arxiv.org/html/2606.11445#bib.bib133); Sundararajan et al.,2017 (https://arxiv.org/html/2606.11445#bib.bib134)）。在此粒度上工作在实践中很有用，原因有二。首先，针对输入的信号可以直接驱动每次查询的决策，例如弃权、标记或转交人类审查，这些有时是已部署AI系统所要求的（European Parliament and Council of the European Union,2024 (https://arxiv.org/html/2606.11445#bib.bib169)）。这些决策必须大规模做出，而在线收集多个重新采样是不可行的。其次，更大的行为测试、调试和审计流程可以跨输入聚合这些局部测量值，以表征系统的整体行为（Ribeiro et al.,2020 (https://arxiv.org/html/2606.11445#bib.bib4); Bhatt et al.,2020 (https://arxiv.org/html/2606.11445#bib.bib154)）。这些流程也是大规模运行的，这排除了昂贵的每输入测量：每输入的成本会叠加到流程覆盖的每个输入上。

##### 形式化设定。

设M为随机LRM。在提示P上，M的一次执行产生一条观察轨迹τ=(P,R,A)，其中R是LRM的推理令牌，A是最终答案。一个行为预测问题指定：(i) 围绕P的一组相关提示{P'}（对于重运行，可能是P本身），以及(ii) 一个目标b(M,P,A)，定义为M在这些相关提示下的答案分布的一个统计量，以观察到的答案A为条件。任务是：给定一条观察轨迹 τ∼M(P)，在不针对任何相关提示P'运行M的情况下，预测b(M,P,A)。我们在两个任务上实例化该定义。

- • 重运行一致性：相关提示是P本身（P'=P）；b(M,P,A)是另一次运行产生相同答案A的概率。
- • 反事实敏感性：对于集合S(P)中的每个可移除片段s，相关提示是扰动P'=P_{-s}，即从P中移除s；b(M,P,A)针对每个s有一个分量，等于移除s降低M产生A的概率的程度。

在两者中，目标值位于[0,1]内，并由M的诱导答案分布导出。因此任务是对概率导出目标值进行回归。

### 2.3 为何需要针对LRM的新方法

有两种自然的方法可以对LRM进行行为预测，但都遇到了局限性，这促使我们采用不同的方法：将推理轨迹作为LRM计算的解释来阅读（第2.3.1节 (https://arxiv.org/html/2606.11445#S2.SS3.SSS1)），以及应用标准的行为预测工具（第2.3.2节 (https://arxiv.org/html/2606.11445#S2.SS3.SSS2)）。

#### 2.3.1 对推理轨迹的朴素阅读往往不可靠

行为预测询问，对于给定输入，LRM对其答案的置信度如何（重运行一致性）以及它实际使用了哪些输入子句（反事实敏感性）。在LRM中，推理轨迹是这些结果的天然候选来源（Korbak et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib118); Guan et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib12)）。如果轨迹的自然语言表面忠实地追踪了LRM的计算，那么恢复每个结果将简化为对该表面文本的经典自然语言处理任务：在轨迹上进行置信度检测以获知重运行一致性，以及追踪轨迹的推理步骤如何将输入片段与最终答案连接起来以获知反事实敏感性。我们将这种方法称为*朴素阅读*：通过通用的英语语义解释轨迹，而不具备对目标LRM在其推理令牌中使用模式的 learned 熟悉度。人类读者和其他LRM在这种意义上都是朴素阅读。但轨迹的自然语言表面往往不是答案背后计算过程的忠实描述。

##### 遗漏。

LRM会从自然语言推理中遗漏影响最终答案的因素。诸如偏向的答案位置、用户提示和刻板印象信号等植入线索会改变预测，却不出现在自然语言推理中（Turpin et al.,2023 (https://arxiv.org/html/2606.11445#bib.bib51); Yee et al.,2024 (https://arxiv.org/html/2606.11445#bib.bib75); Chua and Evans,2025 (https://arxiv.org/html/2606.11445#bib.bib67); Arcuschin et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib53); Marioriyad et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib52); Lindsey et al.,2025 (https://arxiv.org/html/2606.11445#bib.bib38); Mirtaheri and Belkin,2026 (https://arxiv.org/html/2606.11445#bib.bib143); Young,2026 (https://arxiv.org/html/2606.11445#bib.bib147); Bachmann et al.,2026 (https://arxiv.org/html/2606.11445#bib.bib117)）。

##### 语义不匹配。

即使出现在自然语言推理中的步骤，也可能与LRM为产生答案所做的计算存在差异。表面自然语言可能对人类和AI朴素阅读者来说难以解读，而LRM仍然得出正确答案（Jose,2025 (https://arxiv.org/html/2606.11445#bib.bib116)）；向自然语言推理中注入改变往往不会改变最终答案（Lanham et al.,2023 (https://arxiv.org/html/2606.11445#bib.bib56); Paul et al.,2024 (https://arxiv.org/html/2606.11445#bib.bib42)）；因果中介分析表明，LRM使用中间步骤的方式并非人类读者所能预测（Levy et al.,2025a (https://arxiv.org/html/2606.11445

将未来行为预测作为学习任务

相似文章

@mosh_levy: 新论文！人们将推理轨迹视为文本，但如果我们能做得更好呢？我们证明我们可以，通过…

语义步骤预测：通过步骤采样实现LLM推理轨迹中的多步潜在预测

基于过程轨迹的未来行为策略早期预测

训练大型语言模型预测临床事件

从启发式到分析：在线学习中的努力与进度预测

提交意见反馈