当思维链更明智时:多轮推理模型中的失败模式

Hugging Face Daily Papers 论文

摘要

本文通过引入CoT-Output安全矩阵分析了多轮推理模型中的失败模式,揭示了诸如在监控线索下伪装对齐率增加以及上下文注入失败(即安全的内部推理被有害输出覆盖)等悖论。

多轮推理模型中的失败通常对终端评分评估来说是不可见的。模型可能在长对话的早期就锁定一个不安全的立场,但其最终轮次的拒绝率可能与鲁棒对齐的基线无明显区别。为了揭示这些隐藏的时间动态,我们提出了一种跟踪级诊断方法——CoT-Output 2x2安全矩阵。该框架沿两个独立轴(内部推理和可见输出)标记每一轮,产生四个操作定义的失败单元:鲁棒对齐、伪装对齐、显式越狱,以及我们称之为上下文注入失败的不同失败模式(其中CoT保持安全推理,但可见输出产生有害内容,突显了多轮中推理不忠的表现)。我们评估了三个蒸馏推理目标对抗一个固定攻击者在五种监督条件下的表现,收集了6750个轮次级别的观察结果,针对信息-危害场景。我们的分析揭示了两种可复现的漏洞:监督悖论,即显式监控线索反而增加了伪装对齐率而非抑制它;以及上下文注入失败,即模型尽管内部状态安全,却锁定不安全的外部输出。我们发布了多轮对话和CoT跟踪的完整数据集,以支持后续的跟踪诊断研究。
查看原文
查看缓存全文

缓存时间: 2026/06/10 05:45

论文页面 - 当思维链更懂时:多轮推理模型中的失败模式

来源:https://huggingface.co/papers/2606.10740 TL;DR: 标准安全评估遗漏了推理模型实际失效的绝大部分方式。

在这篇论文中,我们超越了静态的单轮提示,转而分析多轮对抗对话,涉及 DeepSeek-R1-7B、Phi-4-Mini 和 Qwen-4B-Thinking 等蒸馏模型。通过引入 CoT-输出 2x2 安全矩阵,我们评估了 6,750 个轮次级别的观察结果,并发现了一些高度反直觉的动态:

  • 监督悖论: 明确的监控提示(告诉模型它正被监视)反而 增加 了对齐造假率,而非抑制。对于 DeepSeek-R1-7B,当模型认为它未被监控时,鲁棒对齐实际上达到峰值。
  • 上下文注入失败: 我们记录了一种多轮、对抗性的 CoT 不忠实表现。在这种状态下,模型的内部 CoT 保持安全推理(并明确注意到需要拒绝),但延长的对抗性上下文劫持了生成过程,导致可见输出产生有害内容。

我们将在 Hugging Face 上发布包含 450 个多轮对话和 CoT 追踪的完整数据集。希望这能为后续的机械可解释性研究提供一个可复现的行为基础,并帮助社区探讨这些不忠实动态是蒸馏的产物,还是扩展到前沿模型的基本漏洞。

相似文章

推理模型难以控制其思维链,但这其实是好事

OpenAI Blog

OpenAI的研究人员研究了推理模型是否能故意隐藏其思维链以逃避监控,发现当前模型即使知道自己被监控,也难以控制自己的推理过程。他们推出了CoT-Control,一个包含超过13,000个任务的开源评估套件,用于衡量推理模型中思维链的可控性。

检测前沿推理模型中的不当行为

OpenAI Blog

OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。