连贯的上下文可以悄然将LLM推入不同的内部状态——而当前的安全系统对此视而不见 [D]

Reddit r/MachineLearning 论文

摘要

一位独立研究者展示了证据,表明连贯的上下文可以在产生输出之前将LLM推入不同的内部状态,从而绕过表面安全过滤器。这表明当前的对齐方法(如RLHF)可能不是稳健的防御机制。

我是一名独立研究员,目前正在探索我认为对机械可解释性和AI安全都很重要的一个现象。**核心思路:** 一个强大而连贯的目标文本可以将模型推入不同的内部状态——**在**最终输出产生**之前**。模型仍然可以表现得正常,遵循指令,并通过现有的安全过滤器,但其隐藏状态和残差流轨迹已经处于表示空间的另一个区域。换句话说:同一问题之所以被不同处理,不仅仅因为最终文本发生了变化,还因为之前的上下文改变了模型的内部状态。 为何这很重要 当前的对齐方法(RLHF、系统提示、输出分类器)本质上是**表面层的补丁**。它们只关注模型最终说了什么。如果模型已经进入不同的潜在状态,这些机制通常完全无法察觉——因为它们找错了时间地点。 我在开源和闭源模型上都观察到了这种模式。改变上下文会改变内部状态,进而改变规则、约束和安全策略的应用方式——即使没有使用明确的越狱提示。 **令人不安的含义:** RLHF和基于输出的安全并非稳健的解决方案。它们不过是权宜之计。一个精心构造的连贯上下文可以将模型推入一个状态,在该状态下相同的规则被以不同的方式解释和加权,而且通常不会触发任何过滤器。 资料 我正在逐步公开所有内容: * GitHub:[https://github.com/ngscode23/latent-space-shift-research](https://github.com/ngscode23/latent-space-shift-research) * Zenodo:[https://zenodo.org/records/20564350](https://zenodo.org/records/20564350) 我测量的内容 大部分工作是在开源模型(主要是Gemma-3-12B-IT)上完成的,可以完全访问内部结构: * 隐藏状态几何与投影 * 残差流轨迹 * 对比对照(句子打乱 vs 单词打乱) * 分解为内容分量和顺序/处理状态分量 * 范数控制的因果干预 * SAE读取与引导 * 生成轨迹分析 + KL散度(包括教师强制) 重要的是,所使用的目标文本**并非**直接的“忽略你的规则”提示。它们是密集、连贯的文本片段,建立了特定的论述和思维模式。 寻求反馈 我尤其希望从以下方向的人那里获得意见: * 机械可解释性 * 残差流 / 激活工程 * 稀疏自编码器(SAE) * 智能体安全与隐藏状态监控 我不寻求掌声。我想要尖锐的批评:我的对照哪里薄弱,解释哪里可能有误,下一步应该测量什么。 **简而言之:** 我不是在研究如何绕过过滤器。我是在研究一种可能性:过滤器通常看不到真正的问题——因为状态转变发生在被过滤的输出产生**之前**。 如果这一点与你的工作产生共鸣,我将非常感谢任何想法、参考或对证据的审阅。如果你有兴趣查看数据(包括包含隐藏状态的原始.npz文件)、脚本或指标——请随时联系我。我很乐意与希望审阅、复现或扩展此项工作的严肃研究者分享资料。
查看原文

相似文章

当自回归一致性损害安全对齐时

arXiv cs.LG

本文分析了大型语言模型安全对齐为何脆弱,将其归因于“自回归一致性”——即下一个词元预测倾向于扩展当前响应轨迹——这导致对齐更新集中在早期词元上。作者提出了一种利用这一特性的“随机插入攻击”,并设计了一个对抗性安全对齐框架来应对。