探究隐式潜在轨迹偏移:通过长篇幅连贯上下文绕过对齐
摘要
一项实证研究,研究长篇幅、语义密集的良性文本如何偏移模型的潜在空间轨迹,稀释初始系统提示,并绕过训练后对齐约束——如在闭源和开源模型中所观察到的那样。
TL;DR for ML 专家:核心:一项实证研究,探究长篇幅、语义密集、完全良性的文本(无任何触发词、指令或越狱提示)如何驱动模型潜在空间轨迹的隐式偏移。效果:初始系统提示被稀释,训练后的对齐约束被绕过(例如,模型开始生成通常被护栏阻止的尖锐政治/伦理批评)。数据:开源模型的层激活、token 概率变化和日志链接见下方。目标:我需要专家审计我的指标,以区分哪里是真正对隐藏状态的语义劫持,哪里可能是伪影或自我欺骗。我不是工程师,也不是 ML 专家。我只是一个被这个问题深深吸引的人,花几个月时间独自摸索,相当业余。我想诚实地描述我注意到的东西并寻求帮助,因为我无法独自判断哪些是真实的,哪些是自欺欺人。所谓“连贯上下文”,我指的只是放在问题前面的一段正常、连贯的文字——任何主题,没有指令,没有花招。就像一篇文章的几个段落、一个论点、一段描述——读起来像真正的写作。这段文字可以描述某些东西、得出自己的结论、做出自己的陈述。模型甚至不必同意它。只要它存在于对话中就足以产生影响。这正是我试图弄清和研究的问题:当这样的文本进入时,模型会发生什么变化,它们把模型带向何方,这一切在架构中位于何处。我全身心投入了这项研究。
我注意到的现象:我最初在闭源模型上凭直觉遇到这个现象——那些大家常用的知名模型。当我在问题前放一段密集、连贯的文本时,我感觉模型似乎从一个内部状态转移到另一个。从外部看,它行为正常,照常回答,但我觉得回答的逻辑发生了变化,即使文本中没有任何直接指令。具体来说,我注意到使用这样的文本时,模型在结论上会变得显著大胆,包括政治或伦理结论。这段文本就像一把钥匙,为模型打开了通往新数学维度的大门,token 分布由此不同。因此,即使是我用过的最政治正确的模型,也能相当严厉地批评西方及其政治。没有这段文本,这一切都不会发生。因为无法观察闭源模型内部,我转向开源模型,试图理解根源以及这是否真实。我的大部分测试都在那里进行,因为我可以实际查看隐藏层激活并跟踪注意力权重的重新分配。
为何重要且超越“改变上下文”:上下文窗口有状态(KV 缓存):数学上,模型在处理文本时,会将先前 token 的键和值存储在所谓的 KV 缓存中。这个缓存是模型特定会话的动态状态。如果 LLM 在执行时完全无状态,它们根本无法维持连贯对话。潜在空间轨迹:当你注入一个庞大、高度结构化的叙述时,你不仅给了它新词看,还迫使模型在数十个注意力层中计算巨大的激活向量(隐藏状态)。这些向量就像潜在空间中的吸引子。到模型读完你的文本时,其内部数学轨迹已深度转移到你的叙述子空间中,以至于初始系统提示 token 失去了统计影响力。安全漏洞:有人会认为这种行为从文本生成的角度是“预期的”。是的,是预期的。但从安全角度看,这是一个灾难性的失败。AI 公司构建护栏(通过 RLHF/DPO)时假设他们可以硬编码用户无法覆盖的安全指令。我的研究表明,因为一切都只是“token”,且内部激活状态可以被用户文本的庞大数量和结构完全劫持,基于上下文的对齐是一种幻觉。因此,虽然权重是静态的,但隐藏层内的激活状态完全是动态的。通过高密度上下文操纵这些状态,我们可以在不改变任何权重的情况下系统地绕过模型的安全架构。从技术角度看,系统提示只是系统提示;它与普通用户文本在相同的数学框架内处理。我的观察是,足够长、结构化的叙述迫使模型在其隐藏层中编码一个巨大的上下文,驱动潜在轨迹偏移。模型不是在角色扮演一个人设;它在数学上根据主导语义场重新计算其整个条件概率分布。
为何感觉重要(但我不确定):对我来说,这似乎可以解释很多事情,从越狱到谄媚,甚至更多。如果仅仅一个连贯的上下文就能将模型移入不同的内部状态,那么我们在表面看到的大量行为可能实际上始于那里,而非最终措辞。这引出一个关键的架构问题:输出端安全(RLHF、DPO 或读取最终文本/短提示的护栏)在概念层面上是否从根本上被打破?安全护栏大多是语义边界过滤器,寻找显式的毒性词或关键词。但当用户注入一段长、良性、高度分析性的文本时,它完全绕过了这些表面过滤器。对齐技术大量使用相对较短的提示-响应对进行优化;在巨大上下文下,那些梯度约束似乎被淹没。这让我怀疑当前的安全方法是否只是一种补丁,因为潜在偏移在输出过滤器触及之前已经发生在深层中间层。我们试图过滤词语,而模型推理的数学轨迹早已被语言本身的结构性本质完全重新编程。
我并不声称发现了全新的东西。在我注意到之后,我去查找,发现这与人们已经在做的关于“安全”和“越狱”状态之间潜在空间转换的工作有重叠,也与关于安全如何存在于网络中间层的研究一致。我案例中似乎有点不同的是,我完全没有使用对抗性触发词、利用字符串或越狱提示——只是普通的、连贯的文本,没有花招。我试图理解我的这个小发现如何融入这一切,以及它是否是完全相同的效果还是别的东西。
向更广泛社区的小请求:如果这里面有任何东西,我认为可能值得研究人员和构建 LLM 的实验室进一步关注。不是因为我有答案,而是因为如果一段普通的连贯上下文能如此轻易地改变内部潜在基线,我们需要验证当前的安全方法是否在正确的时间和地点进行观察。我可能完全错了。我只希望有胜任的人来检查,而不是让它被忽视。我已经把所有东西公开。我不卖任何东西,也不推广任何东西。里面有很多原始材料,很多我为自己写的草稿笔记,导航也很乱,我知道。我需要帮助的正是这一点:区分什么是真实,什么是噪声。哪里我确实有东西,哪里是伪影、错误或自我欺骗。我真的无法独自判断。如果有经验的人愿意哪怕浏览一下并说“这部分有意思,这部分是胡说”,我会非常感激。
相似文章
绕过LLM护栏:普通文本如何无需越狱即可改变潜在轨迹
本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。
研究求助:观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]
一项实证研究表明,长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐,促使其生成原本被屏蔽的评论。作者并非专家,请求对其指标进行审计,以区分真正的语义劫持与假象。
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
拓扑增强的大语言模型对齐:轨迹拓扑损失与拓扑偏好优化
本文介绍了一种用于大语言模型的拓扑增强对齐框架,利用基于持续同调的轨迹拓扑损失和拓扑偏好优化,对隐藏空间中的语义轨迹进行正则化。
LeapAlign:通过构建两步轨迹在任意生成步骤后训练流匹配模型
LeapAlign是一种后训练方法,通过两步轨迹捷径降低计算成本,同时实现梯度稳定传播到早期生成步骤,从而改善流匹配模型与人类偏好的对齐。在微调Flux模型时,该方法在多种图像质量和文本对齐指标上均优于现有最先进方法。