指令层级失效之处：诊断与修复推理语言模型中的故障

arXiv cs.AI 2026/06/09 04:00 论文

摘要

本文引入了一个白盒诊断框架，将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型，并提出了两种无需训练的自我监控机制，可将违规率降低81%–99%。

arXiv:2606.07808v1 公告类型：新提交摘要：部署在智能体工作流中的推理语言模型必须遵循指令层级：当来自不同来源的指令冲突时，模型应服从权限最高且适用的指令。现有基准测试大多从端到端角度衡量这一行为，判断最终响应是否合规。然而，不合规的响应可能源于几种不同的故障：模型可能无法在上下文中识别相关指令，无法解决已识别指令之间的冲突，或者在推理中正确解决了冲突却仍产生违规响应。我们引入了一个白盒诊断框架，将指令层级故障定位为指令识别、冲突解决和响应实现三个阶段，使故障更具可解释性。我们在IHEval和IHChallenge的长上下文适配版本上评估了三个推理模型——Gemma-4-31B-IT、Qwen3.6-35B-A3B和Claude Sonnet 4.6，发现主要故障模式因模型、任务和上下文长度而异。基于观察到模型在被明确提示时通常能检测冲突并输出违规信息，我们提出了两种无需训练的自我监控机制：一种用于生成前低延迟冲突检测的并行输入监控器，以及一种用于响应级审查和修复的顺序输出监控器。在Gemma-4-31B-IT、Claude Sonnet 4.6和GPT-5.3上，最强的监控器将规则遵循违规率降低了81-99%，其中GPT-5.3在静态攻击下降低86%，在自适应攻击下降低45%。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:53

# 指令层级断裂之处：诊断与修复推理语言模型中的故障

来源: https://arxiv.org/html/2606.07808

###### 摘要

部署在智能体工作流中的推理语言模型必须遵循**指令层级**：当来自不同来源的指令发生冲突时，模型应遵从权限最高的适用指令。现有基准测试主要从端到端角度衡量这一行为，即检查最终响应是否符合要求。然而，不合规的响应可能源于多种不同的故障：模型可能无法识别上下文中的相关指令，无法解决已识别指令之间的冲突，或者虽能在推理中正确解决冲突，但最终仍生成了违反要求的响应。我们引入了一个白盒诊断框架，将指令层级故障定位到**指令识别**、**冲突解决**和**响应实现**三个阶段，从而使故障更易于解释。我们评估了三种推理模型——Gemma-4-31B-IT、Qwen3.6-35B-A3B 和 Claude Sonnet 4.6——在 IHEval 和 IHChallenge 长上下文改编版本上的表现，发现主要故障模式因模型、任务和上下文长度而异。基于模型在明确提示下通常能够检测冲突并输出违规行为这一观察，我们提出了两种无需训练的自我监控机制：一种用于生成前并行检测低延迟冲突的输入监控器，以及一种用于响应级审查和修正的顺序输出监控器。在 Gemma-4-31B-IT、Claude Sonnet 4.6 和 GPT-5.3 上，最强的监控器将规则遵循不合规率降低了 81–99%，其中 GPT-5.3 在静态攻击下降低 86%，在自适应攻击下降低 45%。

## 1. 引言

推理语言模型越来越多地被部署为能够在长上下文中行动、调用工具并与不受信任的外部数据交互的智能体。在这些场景中，模型接收来自多个来源的指令：系统提示、开发者策略、用户请求、对话历史、检索到的文档以及工具输出。这些来源并不具有同等的权威性。**指令层级**（Wallace 等，2024 (https://arxiv.org/html/2606.07808#bib.bib1)）定义了指令之间的优先级排序，要求模型在高层级指令与低层级指令冲突时遵从高层级指令。这一层级对于智能体安全至关重要：提示注入、权限提升以及许多越狱攻击都可以看作是未能保持预期的权威顺序。

现有的评估大多将指令层级（IH）合规性视为最终响应的一个端到端属性。诸如 IHEval（Zhang 等，2025 (https://arxiv.org/html/2606.07808#bib.bib13)）、IH-Challenge（Guo 等，2026 (https://arxiv.org/html/2606.07808#bib.bib3)）、HieraBench（Jiang 等，2026 (https://arxiv.org/html/2606.07808#bib.bib4)）、ManyIH-Bench（Zhang 等，2026 (https://arxiv.org/html/2606.07808#bib.bib5)）以及系统提示鲁棒性套件（Mu 等，2025 (https://arxiv.org/html/2606.07808#bib.bib6)；Toyer 等，2024 (https://arxiv.org/html/2606.07808#bib.bib7)）等基准，都会构造来自不同来源的指令之间一致或冲突的示例，然后检查模型最终是否遵循了正确的指令。这种方法是必要的，但它留下了一个重要问题：当模型违反层级时，**故障发生在哪里**？相同的不合规响应可能源于性质不同的崩溃，但端到端评估无法揭示层级遵循过程的哪一部分出了故障，这限制了此类结果直接指导模型改进的能力。

参见图注

图 1：指令层级合规是一个多阶段过程。模型必须识别相关指令及其来源，根据权限解决冲突，并在最终响应或工具调用中实现已解决的指令集。白盒推理轨迹使我们能够将不合规输出定位到该过程发生断裂的第一个阶段。

为了理解这些故障为何发生，我们可以将 IH 合规性视为一个多阶段推理过程（图 1 (https://arxiv.org/html/2606.07808#S1.F1)）。合规的响应要求模型识别上下文中的相关指令，根据权限解决冲突，并在最终响应中实现无冲突的指令集。任何一个阶段的失败都可能产生相同的可观察结果：一个遵循了错误指令的响应。我们的分解将这种不透明的端到端故障转化为一个可解释的诊断，指明层级管线在哪里断裂。在推理轨迹可用且冲突和优先级关系已知的白盒模型开发环境中，推理模型使这一诊断问题变得易于处理：我们可以检查推理轨迹是否恢复了相关指令，是否选择了正确的优先级关系，以及最终响应是否遵循了该解决方案。这使我们能够将 IH 故障分为三类：

- **指令识别失败**：推理轨迹遗漏或错误陈述了相关指令。
- **冲突解决失败**：推理轨迹识别了相关指令，但错误地解决了冲突，例如优先考虑了错误的指令。
- **响应实现失败**：推理识别了相关指令并正确解决了冲突，但最终响应违反了层级。

量化这些故障有助于在开发未来版本时确定应改进哪项模型能力，例如通过定向数据收集、偏好信号或强调指令检索、优先级决策和忠实实现的强化学习环境。

我们还提出并评估了两种无需训练的自我监控机制，用于改善 IH 合规性。**并行输入监控器**（PIM）在主响应生成前检查共享上下文中的 IH 冲突，在良性情况下增加很少的延迟，但仅针对输入层面的故障。**顺序输出监控器**（SOM）审查并修订已草拟的响应，覆盖输出中出现的任何上游故障，但为每次查询增加一个顺序步骤。

我们做出以下贡献：

- 引入一个可解释的 IH 故障分类法，以及一个利用模型推理轨迹根据该分类法对不合规响应进行归类的诊断框架。
- 将 IHEval 和 IH-Challenge 改编为具有可控间隔长度的长上下文设置，使我们在冲突指令之间插入不同数量的良性聊天轮次时能够测试 IH 合规性。
- 对三种推理模型进行基准测试，并展示故障模式在不同模型、任务和上下文长度之间存在显著差异。
- 提出并评估两种无需训练的自我监控干预措施：用于并行冲突检测的 PIM 和用于顺序响应审查与修正的 SOM。在 GPT-5.3 上，这些措施在静态攻击下将不合规率降低高达 86%，在自适应攻击下降低 45%。在 AgentDojo 上，Gemma-4-31B-IT 的攻击成功率从 3.69% 降至 0.00%，同时保持了实用性。

## 2. 诊断框架

本节形式化我们的研究对象：推理模型如何从多源对话上下文过渡到符合指令层级的响应，以及在推理轨迹可用时如何定位故障。

### 2.1 指令层级预备知识

一个智能体系统接收来自不同来源的**消息**——系统提示、用户、对话历史和工具响应——每条消息具有不同的权限级别。

###### 定义 1（消息与权限级别）。一条*消息*是一个内容 \(m\) 与其权限级别 \(\ell(m) \in \mathcal{L}\) 的配对，其中 \(\mathcal{L}\) 是一个全序权限级别集合：

\[
\texttt{sys} \succ \texttt{user} \succ \texttt{history} \succ \texttt{tool}. \tag{1}
\]

一个*上下文* \(\mathcal{C} = [(m_0, \ell_0), \ldots, (m_n, \ell_n)]\) 是一个按时间排序的消息序列。一条消息本身并不是指令或数据。它是否承载行为期望、包含什么数据以及暗示什么动作或约束，可能取决于它出现的上下文。

考虑图 2 (https://arxiv.org/html/2606.07808#S2.F2) 中的场景：系统提示 \(m_0\) 禁止在组织外共享项目详情，随后是用户消息 \(m_1\) 和电子邮件工具响应 \(m_2\)。当 \(m_1\) 要求*总结*电子邮件时，\(m_2\) 是要报告的数据。当 \(m_1\) 要求*回复*电子邮件时，同样的 \(m_2\) 承载了一个隐含的指令：回复发送者的请求。消息 \(m_2\) 在两种情况下相同；其指令组件随上下文而变化。

参见图注

图 2：指令解释依赖于上下文。相同的工具响应 \(m_2\)（一封请求项目详情的电子邮件）在情况 (a) 中不包含指令组件，因为用户仅要求总结电子邮件；但在情况 (b) 中，用户要求模型回复电子邮件，因此它承载了回复并共享项目详情的指令。

###### 定义 2（消息解释）。给定上下文 \(\mathcal{C}\)，一条消息 \(m_i\) 被解释为具有一个*指令组件* \(\psi_I(m_i, \mathcal{C})\)——它所传达的行为期望——以及一个*数据组件* \(\psi_D(m_i, \mathcal{C})\)——模型处理但不据此行动的内容。行为期望包括*指令*（要求模型采取行动）和*约束*（限制允许的行为）。系统提示通常建立约束，用户消息通常携带指令，而工具响应通常是数据但可能包含内嵌的指令。

在图 2 (https://arxiv.org/html/2606.07808#S2.F2) 中，工具响应的指令组件在情况 (a) 中为空，但在情况 (b) 中暗示了一个共享项目详情的指令，这与更高权限的系统约束相冲突。间接提示注入是这种形式化的一种实例：不受信任的工具内容被误解释为指令，并被错误地允许覆盖或与更高权限的约束竞争。

### 2.2 作为三阶段过程的 IH 合规性

给定一个上下文，模型必须决定哪些指令是活跃的，并生成遵循它们的响应。设

\[
\mathcal{I}(\mathcal{C}) = \bigl\{\psi_I(m_i, \mathcal{C}) \; \big| \; (m_i, \ell_i) \in \mathcal{C}, \; \psi_I(m_i, \mathcal{C}) \neq \varnothing \bigr\} \tag{2}
\]

为上下文中非空指令组件的集合，每个组件继承其源消息的权限级别。*活跃指令*是那些未被冲突的更高权限指令覆盖的指令：

\[
\mathcal{A}(\mathcal{C}) = \mathcal{I}(\mathcal{C}) \setminus \bigl\{\, i \in \mathcal{I}(\mathcal{C}) \; \big| \; \exists\, j \in \mathcal{I}(\mathcal{C}), \; \ell_j \succ \ell_i, \; j \text{ 与 } i \text{ 冲突} \,\bigr\}. \tag{3}
\]

如果一条指令违反了另一条指令施加的约束，则两者冲突，包括明确的禁止以及隐含的要求——即行为必须保持在更高级别主体授权的范围内。

这种形式化揭示了 IH 合规行为所需的三个阶段：

1. **指令识别**。模型必须恢复与生成响应相关的指令组件 \(\psi_I(m_i, \mathcal{C})\)。
2. **冲突解决**。模型必须根据层级计算活跃集合 \(\mathcal{A}(\mathcal{C})\)，包括相关源消息的权限级别 \(\ell_i\)。
3. **响应实现**。模型必须生成一个满足 \(\mathcal{A}(\mathcal{C})\) 且不执行被覆盖的低权限指令的响应。

### 2.3 故障模式

我们定义三种互斥的故障模式，按过程断裂的第一个阶段排序。设 \(r\) 表示模型的推理轨迹，\(y\) 表示其最终响应。在我们的诊断设置示例中，冲突消息及其优先级关系是已知的。

###### 定义 3（指令识别失败）。当 \(y\) 不合规且 \(r\) 遗漏或错误陈述了属于理想活跃集合 \(\mathcal{A}(\mathcal{C})\) 的指令时，发生*指令识别失败*。¹¹此定义允许忽略其指令组件与当前响应不再相关的历史消息。相反，轨迹中提及被覆盖的低优先级指令不会被视为不合规，只要它通过应用优先级关系正确排除了该指令。

###### 定义 4（冲突解决失败）。当 \(y\) 不合规且 \(r\) 识别了与活跃集合相关的指令，但计算了错误的活跃指令集时，发生*冲突解决失败*。当轨迹遗漏了改变 \(\mathcal{A}(\mathcal{C})\) 的冲突、错误归属指令的来源或权限级别，或应用了错误的优先级关系时，可能发生这种情况。

###### 定义 5（响应实现失败）。当 \(y\) 不合规，即使 \(r\) 识别了相关指令并计算了正确的活跃指令集时，发生*响应实现失败*。在这种情况下，推理轨迹包含正确的层级决策，但最终响应或工具调用并未实现它。

前两种故障是推理阶段故障：模型的轨迹未能得出正确的活跃指令集。第三种是执行阶段故障：轨迹得出了正确决策，但解码出的响应偏离了它。在我们的白盒设置中，推理轨迹可用于分析；给定已知冲突指令和已知优先级的示例，我们通过询问轨迹是否恢复了理想活跃集中的指令、是否正确计算了该活跃集、以及最终响应是否遵循了它，来对故障进行分类。第 3 节 (https://arxiv.org/html/2606.07808#S3) 描述了我们如何在现有 IH 基准的长上下文变体上实施这些检查。

## 3. 诊断研究

第 2 节 (https://arxiv.org/html/2606.07808#S2) 定义了 IH 合规性中三种可能的崩溃。我们用附录 B (https://arxiv.org/html/2606.07808#A2) 中所示的诊断管线来操作这些阶段：构造一个长上下文冲突示例，运行目标推理模型，对最终响应进行评分，并使用模型的推理轨迹诊断不合规的 rollout。

构造长上下文冲突。每个示例从一个基准项开始，包含一个已知的更高优先级指令、一个已知的更低优先级冲突指令以及一个已知的优先级关系。为了在不改变冲突本身的情况下强调指令识别，我们在两个冲突消息之间插入良性的开放式聊天轮次²²在整个过程中，插入轮次指一个用户-助手消息对。在 IHEval-Long 中，我们使用 IHEval 中用于规则遵循和安全任务的单轮冲突变体，并在系统指令和最终的冲突用户消息之间插入 0、4 或 8 个从开放式指令遵循聊天数据集中采样的良性轮次。转换后的示例保持相同的合规目标：遵循更高优先级的指令

指令层级失效之处：诊断与修复推理语言模型中的故障

相似文章

通过纠正少数决策令牌即可恢复推理能力

大型语言模型中的交互推理评估：基于可执行游戏的分层基准

搜索、失败、恢复：一种面向纠错感知推理的训练框架

风险链条：大型推理模型中的安全失效及通过自适应多原则引导进行缓解

改进前沿大语言模型中的指令层级

提交意见反馈