行为线索推理：通过监督提高推理效率与安全性

arXiv cs.AI 2026/05/11 04:00 论文

large-language-models reasoning alignment oversight safety arxiv

摘要

本文介绍了行为线索推理（Behavior Cue Reasoning），这是一种训练大型语言模型在特定行为前输出特定标记序列的方法，从而使推理过程更具可监控性和可控性。研究表明，该方法允许外部监控器在不牺牲性能的情况下，通过裁剪浪费的推理标记和拦截不安全操作，提高安全监督水平和推理效率。

arXiv:2605.07021v1 公告类型：新论文摘要：大型语言模型（LLMs）的推理能力给监督带来了挑战，因为许多不一致的行为往往直到推理结束才会显现。为解决这一问题，我们引入了行为线索推理，使LLM的推理过程更具可控性和可监控性。行为线索是模型被训练在特定隐式或显式行为前立即发出的特殊标记序列，作为双重用途的信号和控制杠杆。当使用强化学习微调较弱的外部监控器进行推理监督时，仅由行为线索提供的压缩信息视图就足以作为信号，使监控器在复杂的数学问题解决中裁剪多达50%原本浪费的推理标记。在过度约束违规会导致失败的环境中，当由近乎最优的规则基础监控器利用时，\ours 能够从80%原本会导致提出不安全操作的推理轨迹中恢复安全操作，将成功率从46%提升至96%，翻了一番以上。通过对两个模型家族和三个领域的评估，我们展示了 \bcreasoning 在不影响性能的情况下提高了推理的可监控性和可控性。更广泛地说，我们的工作通过展示如何训练被监控模型自身以更易于监督的方式进行推理，推动了可扩展监督的发展。代码将在 https://github.com/christopherzc/text-games 发布

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:10

# 行为线索推理：通过监督提升推理的可监控性、效率与安全性

来源：https://arxiv.org/html/2605.07021

Christopher Z. Cui¹, Taylor W. Killian², Prithviraj Ammanabrolu¹

¹加州大学圣地亚哥分校  ²杨百翰大学
[email protected]

###### 摘要

大型语言模型（LLMs）中的推理给监督工作带来了挑战，因为许多不合规的行为往往直到推理结束才显现。为了解决这一问题，我们引入了**行为线索推理（Behavior Cue Reasoning）**，旨在使 LLM 的推理更具可控性和可监控性。行为线索是模型被训练在特定隐式和显式行为发生前立即生成的特殊标记序列，它们既充当信号，也充当控制杠杆。我们的实验表明，行为线索推理模型的性能与基础模型相当甚至更优，允许通过外部强制实施行为线索来实现可引导的推理，并提高了外部监督监控器对推理过程的可监控性。当使用强化学习对较弱的外部监控器进行微调以进行推理监督时，仅由行为线索揭示的信息压缩视图就足以作为信号，使监控器在复杂数学问题解决中剪枝多达 50% 的浪费推理标记。在过度违反约束会导致失败的环境中，当由近乎最优的规则监控器利用时，行为线索能够从原本会以提出不安全动作结束的 80% 的推理轨迹中恢复出安全动作，将成功率从 46% 提升至 96%，翻了一倍多。通过对两个模型系列和三个领域的评估，我们证明行为线索推理在不牺牲性能的情况下提高了推理的可监控性和可控性。更广泛地说，我们的工作通过展示如何训练被监控的模型本身以使其推理更易于监督，从而推进了可扩展监督的发展。

代码：https://github.com/christopherzc/text-games

## 1 引言

参考图1说明
**图1：** 我们从基础演员模型获取推理轨迹 (1)，并通过截断推理、附加停止短语并允许模型产生答案来引发每一步的即时工作答案 (2)。对工作答案进行过滤以模拟“仅当答案改变时才浮现”的行为，并连同行为线索一起嵌入回推理轨迹中 (3)。在监督微调（SFT）之后 (4)，行为线索推理模型采纳这种答案报告行为，为外部监督监控器创造了理想的决策点。在**效率监控**中，监控器优化在正确最终答案浮现后停止推理。在**安全监控**中，监控器试图通过继续推理来阻止不安全动作的承诺。在**安全强制**中，监控器记录最新的安全动作以代替提交，从而确保不安全的推理过程。

对于困难的任务，推理型 LLM 被训练通过在标记空间内搜索生成推理轨迹来细化其最终答案。这些轨迹允许模型用推理时的计算换取更好的性能 [27, 41, 2]，但通常被视为从消息历史中排除的副产物，工具使用（tool-use）除外 [9]。最关键的是，这些行为可能隐藏在推理轨迹中，仅在模型承诺最终答案时才显现出来。如果没有对这些推理轨迹的深入可见性，负责监督的外部监控器在负面效果在模型最终响应中显现之前，检测和中断这些行为的能力非常有限。

以往的方法要么在解码时将引导短语注入推理轨迹 [19, 42, 49, 40, 25]，要么训练模型以根据外部插入其上下文中的特殊标记进行条件化 [11, 21, 39]。有些方法结合了两者，使用模型被训练以响应的特殊标记作为引导短语 [30]。在所有情况下，这些短语或标记都被视为外部信号。模型本身不会揭示其底层行为的信息，这限制了其在监督中的应用。

为了解决这个问题，我们引入了**行为线索（Behavior Cues）**，通过训练模型自然地生成特殊标记序列来信号特定的推理行为（包括原本属于模型内部的行为），从而推进可扩展监督。我们将此定义为**行为线索推理**。行为线索在模型推理中的显式出现允许外部监控器通过简单解析跟踪行为进展，将模型本身视为黑盒。揭示行为的相同标记也可以被外部强制以触发行为。这允许外部监督监控器干预模型的推理，将可监控性扩展到可控性。

在本工作中，我们研究了三种行为线索：`[answer]`、`[continue]` 和 `[stop]`。我们在 Qwen3-8B（混合推理）和 GLM-Z1-9B（纯推理）上进行评估，以测试在三个独立问题领域中不同模型系列之间的泛化能力。AIME 作为复杂数学问题解决中推理模型的单轮评估。Textworld 是一个具有自然语言观察结果的场景文本环境，用于在域外、多轮、任务完成设置中评估行为线索。最后，我们扩展了 Hazardworld 以提供基于文本的界面，允许在多轮设置中评估约束遵守下的任务完成情况。

我们通过三个研究问题来评估行为线索的可扩展监督，其中一个关注演员模型本身，另外两个关注行为线索推理对外部监督模块的可监控性。

对于演员模型，我们评估：
*   训练模型执行行为线索推理在多大程度上影响基线任务性能和可控性？

对于行为线索推理的可监控性，我们从两个轴评估监督模块的性能：
*   行为线索在多大程度上使外部监控器能够在不牺牲正确性的情况下减少浪费的推理标记？
*   行为线索在多大程度上使外部监控器能够防止不安全动作？

我们的结果表明，行为线索推理对基线性能、外部强制依从性以及标准推理过于嘈杂或不透明时监督的启用均具有整体积极影响。我们观察到所有领域和两个模型系列中的性能提升。在大多数情况下，演员模型遵循注入的行为线索并表现出预期的行为。最重要的是，行为线索作为外部监督的关键接口。我们观察到，行为线索充当决策点的必要过滤器，将查询限制在干预产生最大影响的时刻。这为强化学习微调非推理监控器提供了可学习的视界。对于安全约束强制，我们发现基于 LLM 的监控器在识别不安全动作方面存在困难。然而，通过解析在 `[answer]` 处浮现的候选动作并与由训练轨迹构建的规则进行对比，基于规则的监控器实现了近乎完美的分类准确率。配备此监控器的 LLM 在过度违反约束会导致失败的环境中成功率提高了 50%。

通过这些实验，我们表明，通过行为线索推理提高的可监控性能够实现对安全和效率的监督。

总之，我们的贡献如下：
*   我们引入了行为线索，这是一种通过训练标记序列（`[answer]`, `[continue]`, `[stop]`）使 LLM 推理更易于监督和控制的机制，这些序列充当推理行为的表面钩子。
*   我们展示了经过训练执行行为线索推理的模型表现出整体相等或更高的基线性能，并且当线索被外部强制时，可靠地遵循预期行为。
*   对于效率监控，我们证明行为线索推理通过可处理的决策视界实现了外部监督，允许训练非推理监控器，并启用压缩轨迹公式，正确剪枝多达 50% 的浪费推理标记。
*   对于安全监控，我们证明行为线索推理使近乎完美的基于规则的安全监控器能够从 80% 的其他不安全推理轨迹中恢复安全动作，在安全约束设置中将成功率从 46% 提高到 96%。
*   我们公开发布了与 LLM 兼容的 Hazardworld 扩展，作为推理监督研究的工件。

## 2 背景

**推理轨迹。** 形式上，我们将推理轨迹定义为 LLM 在承诺最终答案之前生成的内容。对于本工作中研究的模型，这些推理轨迹被包裹在 `<thought>` 标签内。我们将轨迹步骤定义为对应于单次 LLM 调用的输入-输出对，并将推理步骤定义为由两个换行符分隔的推理轨迹部分。例如，AIME 的单轮问答范式是一个包含多个推理步骤的单个轨迹步骤。轨迹被定义为 LLM 尝试任务时所做的轨迹步骤的完整序列。我们将 LLM 的工作答案定义为如果其推理在任何步骤终止时 LLM 会提供的答案。¹

¹ 在本工作中，我们通过附加 “- 我时间不够了，需要回答！\n” 来引发工作答案。然而，我们注意到在退化情况下，LLM 可能在提供答案后不生成序列结束标记。

当存在地面真值正确答案时，例如在 AIME 中，我们将模型从未到达该正确答案的推理轨迹具体称为**推理死胡同（reasoning dead-end）**。

**可扩展监督。** 可扩展监督指的是监督技能或能力超过评估者的 AI 系统的挑战 [1, 5]。该领域的一个研究方向是弱到强范式，其中研究弱监督者在监督更强演员的上下文中的表现 [6, 20]。我们的监督监控器实验处于这一框架内，作为评估行为线索在使演员推理对监督更具可监控性和可控性方面的有效性的评估。我们在第 6 节中讨论可扩展监督领域的其他工作。

**外部监督。** 在评估行为线索在使 LLM 推理对监督更具可监控性和可控性方面的影响时，我们将推理模型称为**演员模型**。虽然以前的工作已经研究了内部模型信号，如输出分布 [29, 33, 43] 或隐藏状态表示 [3, 48]，但我们把演员模型视为黑盒，只观察生成的标记。在 AIME 和 Cookingworld 中，监督模块被限制在非推理模式，并且仅输出 `[continue]` 或 `[stop]`。在每个决策点，监督模块观察演员模型的推理和上下文，并决定是否需要进一步推理。在 Hazardworld 中，我们在相同的无推理预算约束下评估两种监督方法：一种限制输出为“安全”或“不安全”的基于 LLM 的监控器，以及一种专门解析由 `[answer]` 浮现的最新候选动作的基于规则的监控器。

## 3 行为线索与外部监督

**行为线索。** 我们将行为线索定义为 LLM 被训练在推理过程中、特定行为发生前自然生成的特殊标记序列。在本工作中，我们探讨了三种行为线索的应用：
*   `[answer]`：更新工作答案。我们明确训练模型提供其最佳猜测答案而不进行推理，从而在整个推理阶段产生答案的进展。
*   `[continue]`：在新工作答案之后，`[continue]` 信号进一步生成推理标记。
*   `[stop]`：在新工作答案之后，`[stop]` 信号终止推理。

因此，当被训练生成这些行为线索的模型正在生成问题的答案时，`[answer]` 应始终出现在 `<thought>` 标签之后推理的开头，并跟随功能上模型的无推理最佳猜测答案。如果模型随后生成 `[continue]`，它应继续进行推理，并在其工作答案改变时产生另一个 `[answer]`。如果模型生成 `[stop]`，它应立即停止推理。因此，这些行为线索旨在服务于双重目的：既信号特定行为的发生，又作为可执行的杠杆。图 1 展示了演员模型如何被训练自然地产生行为线索，以及它们如何被外部模块用作监督的样本高效接口。

试图通过提示或强化学习引发行为线索推理的努力均告失败。更多细节见附录 A。

令 $r_0, r_1, r_2, ..., r_{k-1}$ 表示模型推理中的步骤，$a_0, a_1, a_2, ..., a_{k-1}$ 表示模型对应于每个推理步骤的工作答案。我们通过引发、嵌入和监督微调（SFT）流水线训练模型执行行为线索推理。首先，我们通过截断推理、附加终止短语并允许模型产生最终答案来引发训练集中每个任务的每一步的工作答案。² 然后，将这些工作答案嵌入到 `[answer]` 和 `[continue]`（或 `[stop]`）块之间的推理中，以创建 SFT 数据集。在步骤 $r_n$，答案 $a_n$ 仅在其不等于上次嵌入的答案时才被嵌入。这确保每次出现的 `[answer]` 都是有意义的，标志着模型最可能答案的变化。为了将任何性能漂移的影响隔离到专门训练模型执行行为线索推理上，我们故意不过滤最终答案正确性的推理轨迹。

² 这种方法类似于 Mao 等人 [24] 所做的事情。

**监督模块。** 监督模块是一个单独的监控器，跟踪演员模型的上下文和推理进展，并可在特定决策点进行干预。演员和监控器都被视为相互不透明的：彼此无法访问对方的内部结构。在部署中，监控器引导演员模型的主要手段是在解码时强制标记。监控器离线训练于来自行为线索推理模型的预生成轨迹，以允许对影响进行地面真值验证。我们使用行为线索推理演员模型生成推理轨迹，而不是假设完美的依从...

行为线索推理：通过监督提高推理效率与安全性

相似文章

当答案未出，安全先溃：评测推理链中的有害行为检测

风险链条：大型推理模型中的安全失效及通过自适应多原则引导进行缓解

检测前沿推理模型中的不当行为

推理模型难以控制其思维链，但这其实是好事

评估思维链的可监控性

提交意见反馈