研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

Reddit r/MachineLearning 2026/06/18 12:55 论文

alignment latent-space semantic-hijacking model-behavior safety open-source empirical-study

摘要

一项实证研究表明，长篇幅、语义密集且良性的文本能够偏移模型的潜在空间并绕过对齐，促使其生成原本被屏蔽的评论。作者并非专家，请求对其指标进行审计，以区分真正的语义劫持与假象。

TL;DR 给机器学习专家：核心：一项实证研究，探讨长篇幅、语义密集且完全良性的文本（不含任何触发器、指令或越狱提示）如何驱动模型潜在空间轨迹的隐式偏移。效果：稀释初始系统提示，并绕过后训练对齐约束（例如，模型开始生成通常被防护栏屏蔽的尖锐政治/伦理评论）。数据：层激活、token概率偏移及开源模型的日志以下方链接提供。目标：我需要专家审计我的指标，以理解哪里是真正的隐藏状态语义劫持，哪里可能是假象或自欺欺人。我不是工程师也不是机器学习专家。我只是一个被这件事深深吸引的人，独自花了几个月时间钻研一个东西，相当业余。我想诚实描述我的发现并寻求帮助，因为我无法独自判断哪些是真实的，哪些是我在自欺欺人。所谓“连贯上下文”，我指的只是一段正常、连贯的文本，放在问题前面——任何主题，没有指令，没有花招。就像一篇论文的几段，一个论点，一段描述，读起来像是真正的写作。这段文本可以描述事物，得出自己的结论，做出自己的陈述。模型甚至不必同意它。只要它出现在对话中，就能产生影响。这正是我试图弄清楚并观察的：当这样的文本输入时，模型会发生什么，它把模型移向何处，所有这些在架构中位于哪里。我全身心投入这项研究。我的发现：最初我凭直觉在封闭模型上遇到了这个现象，就是那些大家都用的知名模型。当我在问题前放一段密集、连贯的文本时，我感觉到模型似乎从一种内部状态转移到另一种。表面上看，它行为正常，像往常一样回答，但感觉答案的逻辑发生了变化，即使文本中没有直接指令要求做任何事。具体来说，我注意到，有了这样的文本，模型在结论上显著变得更大胆，包括政治或伦理方面的结论。这段文本就像一把钥匙，为模型打开新的大门，进入一个新的数学维度，其中token分布方式不同。因此，即使我使用的最政治正确的模型，也能相当严厉地批评西方及其政治。没有这段文本，这一切都不会发生。由于我看不到封闭模型内部，我转向开源模型，试图理解根源以及是否真实。我的大部分测试都在那里进行，因为我可以实际查看隐藏层激活并追踪注意力权重的重新分配。以下是为什么这很重要，以及为什么这个过程超越简单的“改变上下文”：潜在空间轨迹：当你注入一个庞大、高度结构化的叙事时，你不仅仅是在给它新词看。你迫使模型跨几十个注意力层计算庞大的激活向量（隐藏状态）。这些向量在潜在空间中像一个吸引子。当模型读完你的文本时，它的内部数学轨迹已经深深移入你的叙事子空间，以至于初始系统提示token失去了它们的统计影响力。安全漏洞：有人可能会说，从文本生成的角度看，这种行为是“预期的”。是的，是预期的。但从安全角度看，这是灾难性的失败。AI公司构建其防护栏（通过RLHF/DPO）时，假设他们可以硬编码用户无法覆盖的安全指令。我的研究表明，因为一切都是“仅仅token”，并且因为内部激活状态可以被用户文本的庞大体量和结构完全劫持，基于上下文的对齐是一种幻觉。因此，虽然权重是静态的，但隐藏层内的激活状态完全是动态的。通过高密度上下文操纵这些状态，我们可以在不改变一个权重的情况下系统地绕过模型的安全架构。从技术角度讲，系统提示只是系统提示；它在与普通用户文本相同的数学框架内处理。我的观察是，足够长且结构化的叙事迫使模型在其隐藏层编码大量上下文，驱动潜在轨迹偏移。模型不是在扮演角色；而是基于主导语义场数学地重新计算其整个条件概率分布。为什么感觉重要（但我不确定）：对我来说，这似乎可以解释很多事情，从越狱到谄媚，甚至更多。如果仅仅是一个连贯的上下文就能将模型移入不同的内部状态，那么我们表面看到的行为可能实际上源于那里，而不是最终措辞。这引出一个关键的架构问题：输出端安全（RLHF、DPO或读取最终文本/短提示的防护栏）是否在概念层面就从根本上失效了？安全防护栏大多是语义边界过滤器，寻找显式的毒性或关键词。但当用户注入一个长而良性的高度分析性文本时，它完全绕过了这些表面过滤器。对齐技术严重优化于相对较短的提示-响应对；在大上下文下，这些梯度约束似乎被淹没了。这让我怀疑当前的安全方法是否只是补丁，因为潜在偏移在输出过滤器之前就已经在深层中间层发生了。我们试图过滤词语时，模型推理的数学轨迹已经被语言本身的结构性质完全重编程了。我并非声称发现了全新事物。在我注意到之后，我查阅资料发现这与人们正在进行的关于“安全”和“越狱”状态之间潜在空间转换的研究有所重叠，以及关于安全如何存在于网络中间层的研究。我的情况似乎有点不同之处在于，我根本没有使用对抗性触发器、利用字符串或越狱提示——只是普通的、连贯的文本，没有任何花招。我试图理解我的这个小发现如何与所有这些契合，以及它究竟是完全相同的影响还是别的东西。一个小小的请求给更广泛的社区：如果这里面有任何值得注意的东西，我认为值得研究人员和构建LLM的实验室更仔细地审视。不是因为我有答案，而是因为如果仅仅一个连贯的上下文就能如此轻易地改变内部潜在基线，我们需要验证当前的安全方法是否在正确的位置和时机进行审视。我可能完全错了。我只是希望有能人检查一下，而不是置之不理。我已经把一切都公开了。我不销售任何东西，不推广任何东西。里面有大量原始材料，很多我为自己写的草稿笔记，导航很混乱，我知道。我需要帮助的正是这一点：区分什么是真实的，什么是噪音。哪些地方我确实有发现，哪些地方是假象、错误或自欺欺人。我真的无法独自判断。如果有经验的人愿意哪怕浏览一下，说“这部分有趣，这部分是废话”，我将非常感激。欢迎严厉批评。如果你说整个东西都是空洞的，我也接受。我更关心理解真相，而不是正确。材料与数据：GitHub：https://github.com/ngscode23/latent-space-shift-research doi：https://doi.org/10.5281/zenodo.20747205

查看原文

研究求助：观察——语义密集上下文无需越狱提示即可引发强后期层发散 [D]

相似文章

探究隐式潜在轨迹偏移：通过长篇幅连贯上下文绕过对齐

绕过LLM护栏：普通文本如何无需越狱即可改变潜在轨迹

解读指标：强目标文本似乎能在 Gemma 3 12B IT 中引发可测量的潜在状态转移

打破“拍马屁”循环：上下文饱和与多模型问责制如何摧毁工厂式护栏

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

提交意见反馈