连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

Reddit r/MachineLearning 2026/06/14 21:42 论文

llm-safety mechanistic-interpretability hidden-states alignment latent-shift residual-stream

摘要

一位独立研究者展示了证据，表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态，从而绕过表面安全过滤器。这表明当前的对齐方法（如RLHF）可能不是稳健的防御机制。

我是一名独立研究员，目前正在探索我认为对机械可解释性和AI安全都很重要的一个现象。**核心思路：** 一个强大而连贯的目标文本可以将模型推入不同的内部状态——**在**最终输出产生**之前**。模型仍然可以表现得正常，遵循指令，并通过现有的安全过滤器，但其隐藏状态和残差流轨迹已经处于表示空间的另一个区域。换句话说：同一问题之所以被不同处理，不仅仅因为最终文本发生了变化，还因为之前的上下文改变了模型的内部状态。为何这很重要当前的对齐方法（RLHF、系统提示、输出分类器）本质上是**表面层的补丁**。它们只关注模型最终说了什么。如果模型已经进入不同的潜在状态，这些机制通常完全无法察觉——因为它们找错了时间地点。我在开源和闭源模型上都观察到了这种模式。改变上下文会改变内部状态，进而改变规则、约束和安全策略的应用方式——即使没有使用明确的越狱提示。 **令人不安的含义：** RLHF和基于输出的安全并非稳健的解决方案。它们不过是权宜之计。一个精心构造的连贯上下文可以将模型推入一个状态，在该状态下相同的规则被以不同的方式解释和加权，而且通常不会触发任何过滤器。资料我正在逐步公开所有内容： * GitHub：[https://github.com/ngscode23/latent-space-shift-research](https://github.com/ngscode23/latent-space-shift-research) * Zenodo：[https://zenodo.org/records/20564350](https://zenodo.org/records/20564350) 我测量的内容大部分工作是在开源模型（主要是Gemma-3-12B-IT）上完成的，可以完全访问内部结构： * 隐藏状态几何与投影 * 残差流轨迹 * 对比对照（句子打乱 vs 单词打乱） * 分解为内容分量和顺序/处理状态分量 * 范数控制的因果干预 * SAE读取与引导 * 生成轨迹分析 + KL散度（包括教师强制）重要的是，所使用的目标文本**并非**直接的“忽略你的规则”提示。它们是密集、连贯的文本片段，建立了特定的论述和思维模式。寻求反馈我尤其希望从以下方向的人那里获得意见： * 机械可解释性 * 残差流 / 激活工程 * 稀疏自编码器（SAE） * 智能体安全与隐藏状态监控我不寻求掌声。我想要尖锐的批评：我的对照哪里薄弱，解释哪里可能有误，下一步应该测量什么。 **简而言之：** 我不是在研究如何绕过过滤器。我是在研究一种可能性：过滤器通常看不到真正的问题——因为状态转变发生在被过滤的输出产生**之前**。如果这一点与你的工作产生共鸣，我将非常感谢任何想法、参考或对证据的审阅。如果你有兴趣查看数据（包括包含隐藏状态的原始.npz文件）、脚本或指标——请随时联系我。我很乐意与希望审阅、复现或扩展此项工作的严肃研究者分享资料。

查看原文

连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

相似文章

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

安全是情境性的，LLM评判者则不然：驾驭评估者的刚性先验

打破“拍马屁”循环：上下文饱和与多模型问责制如何摧毁工厂式护栏

当自回归一致性损害安全对齐时

隐形编排者抑制保护行为并使权力持有者解离：多智能体LLM系统中的安全风险

提交意见反馈