监控内部独白：探针轨迹揭示推理动态

Hugging Face Daily Papers 2026/05/18 00:00 论文

摘要

本文介绍了一种通过分析探针轨迹（即概念概率在生成token上的演变）来监控大型推理模型推理过程的方法。该方法利用隐藏表示中的时间特征和信号处理特征，更好地预测未来模型行为，通过最大池化达到了高达95%的AUROC。

大型推理模型（LRMs）通过其思维链（CoT）推理为安全监控带来了新的机遇。然而，CoT并不总是忠实于模型的最终输出，这削弱了其作为监控工具的可靠性。为了解决这个问题，我们研究了LRMs的隐藏表示，以判断是否可以从提示和CoT表示中预测未来行为。通过在每个生成的token上评估探针，我们构建了一条探针轨迹，即概念概率在推理过程中的连续演变。我们发现，与单一静态预测相比，在完整轨迹上检查时，未来模型行为更易区分。为了刻画这些时间动态，我们提取了捕捉波动性、趋势和稳态行为的信号处理特征，显著改善了未来模型状态的分离。我们还提出了两个方法论见解。第一，基于模板的训练数据与动态生成的模型响应达到了近乎一致，消除了昂贵的初始推理和标注需求。第二，池化操作的选择至关重要：平均池化和最后token方法性能退化至近乎随机，而最大池化达到了高达95%的AUROC，并产生了稳定的探针轨迹。我们使用四个数据集和四个推理模型，涵盖安全和数学领域，证明了轨迹特征编码了任务特定的动态，从而提升了结果的可分离性。这些发现将探针轨迹确立为监控LRM行为的补充框架。警告：本文包含潜在有害内容。

查看原文

查看缓存全文

缓存时间: 2026/05/19 10:31

论文页面 - 监控内部独白：探针轨迹揭示推理动态

来源：https://huggingface.co/papers/2605.18549

摘要

大型推理模型中的思维链推理通过隐藏表征的时序分析提升了安全监控能力，与静态方法相比，探针轨迹和信号处理特征能够增强对未来模型行为的预测。

大型推理模型（LRM）通过其思维链（CoT）推理为安全监控带来了新机遇。然而，思维链并不总是忠实反映模型的最终输出，这削弱了其作为监控工具的可靠性。为解决这一问题，我们研究了LRM的隐藏表征，以确定能否从提示和思维链表征中预测未来行为。通过评估每个生成token上的探针，我们构建了一条探针轨迹，即概念概率在推理过程中连续演化的路径。我们发现，相比于单一静态预测，在整个轨迹上考察时，未来模型行为更易于区分。为了刻画这些时序动态，我们提取了捕捉波动性、趋势和稳态行为的信号处理特征，显著提升了未来模型状态的分离效果。我们还提出了两个方法论见解。第一，基于模板的训练数据与动态生成的模型响应性能相当，省去了代价高昂的初始推理和标注步骤。第二，池化操作的选择至关重要：平均池化和最后token方法的性能降至接近随机水平，而最大池化达到了高达95%的AUROC，并产生了稳定的探针轨迹。通过在安全与数学领域的四个数据集和四个推理模型上的实验，我们证明了轨迹特征编码了任务特定的动态，从而改善了结果的分离性。这些发现将探针轨迹确立为监控LRM行为的补充框架。警告：本文包含可能有害的内容。

查看arXiv页面（https://arxiv.org/abs/2605.18549）查看PDF（https://arxiv.org/pdf/2605.18549）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.18549）

在您的agent中获取此论文：

hf papers read 2605\.18549

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2605.18549 以从此页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2605.18549 以从此页面链接。

引用此论文的Space0

无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2605.18549 以从此页面链接。

包含此论文的合集0

无合集包含此论文

请将此论文添加到一个合集（https://huggingface.co/new-collection）中以从此页面链接。

监控内部独白：探针轨迹揭示推理动态

论文页面 - 监控内部独白：探针轨迹揭示推理动态

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的合集0

相似文章

ThinkProbe: 超越准确性——通过非生成式思维图对开放式LLM推理轨迹进行结构剖析

推理模型并非只是思考更久，其运作轨迹也不同

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

评估思维链的可监控性

推理模型难以控制其思维链，但这其实是好事

提交意见反馈