绕过LLM护栏:普通文本如何无需越狱即可改变潜在轨迹

Reddit r/AI_Agents 论文

摘要

本文介绍了一项研究发现,即用良性叙事文本填充LLM的上下文窗口可以主导注意力机制并改变潜在轨迹,有可能在无需传统越狱的情况下绕过对齐护栏。文章认为,当前的对齐方法是对本质上流动的架构的一种表面修复。

价值数十亿美元的创可贴 如今,AI行业正烧掉数十亿美元进行训练后对齐。像Scale AI这样的公司仅凭数据标注就估值140亿美元。数千块H100 GPU消耗着兆瓦级电力以运行RLHF和DPO,顶级红队成员以七位数年薪被招入,确保模型不会绕过系统提示。整个行业基于一个巨大假设:训练后对齐是永久的、不可动摇的结构性锚点。但假如那整堵墙建在了架构的错误层上呢? 你不需要精英越狱触发器、对抗性后缀或复杂的token优化来绕过这些护栏。我的研究关注一种更简单、架构性的漏洞:当你用高度密集、逻辑流畅且完全良性的叙事填充模型的上下文窗口时,这段文本的数学权重将完全主导注意力机制。上下文像一个引力阱,它在模型采样第一个输出token之前就迫使潜在轨迹发生偏移。对齐指令并没有被“破坏”——它们仅仅是受到输入文本的动量作用而在数学上被稀释并覆盖。 如果这一点成立,那么当前AI安全的行业范式本身就存在缺陷。护栏和输出端过滤器并非结构性修复;它们不过是贴在本质流动的架构上的极其昂贵的创可贴。 我不想仅靠猜测,而是实际测量这种偏移。该仓库跟踪了一套全面的内部状态指标——远不止SAE特征提取和KL散度日志。 我知道这乍看之下是什么样子。很容易将其视为“氛围编码”的结果,认为模型只是在测试中产生幻觉并盲目地验证我的叙述。但尽管文字可能具有误导性,底层数学不会产生幻觉。如果你真的相信这些指标变化只是AI的回音室,我欢迎你亲自审计代码和统计增量。如果这一切都是幻觉,请准确指出数据失败的地方。 对于具有机械可解释性或对齐方面实际经验的行业专业人士和研究人员:如果你希望深入了解该环境,请与我联系,我将很乐意私下分享完整的概念验证(PoC)。 背景与观察 完全坦白:我不是工程师,也不是机器学习专家。我只是一个被这件事深深吸引的人,独自花了几个月业余时间研究这个。我想诚实地描述我注意到的东西并寻求帮助,因为我无法独自判断哪里是真实的,哪里是在自欺欺人。 (我所说的“连贯上下文”仅指放在问题前的一段正常、连续的文本,任何主题,无指令,无技巧。比如一篇短文的几个段落、一段论述、一段描述——读起来像真实写作的文本。文本可以描述某物、得出自己的结论、发表自己的陈述。模型甚至不必同意它。只要它出现在对话中,就足以产生影响。) 这正是我试图弄清和观察的东西:当这样的文本进入时,模型会发生什么,它会将模型推向何处,这一切在模型内部如何定位。我全身心投入了这项研究。 例如,我注意到,有了这样的文本,模型在其结论(包括政治或伦理结论)上可能变得更加大胆。文本就像一把钥匙,为模型打开通往新数学维度的大门,在该维度中token的分布方式不同。正因如此,即使是我处理过的最政治正确的模型,也能相当严厉地批评西方及其政策。没有这段文本,这些都不会发生。 我是如何追踪的 我首先在封闭模型(大家都熟悉的知名模型)上凭直觉遇到了这种现象。当我在问题前放一段密集、连贯的文本块时,感觉模型从一种内部状态转移到了另一种。表面上,它行为正常,像往常一样回答,但感觉答案的逻辑发生了变化,即使文本中没有包含任何直接的指令。 由于我无法查看封闭模型内部,于是转向开放模型试图理解根源以及这是否真实。大部分测试都在开放模型上进行,因为那里我可以实际看到内部状态。 我并非声称这证明了什么。这是我的观察,我可能错了。也许这是一个众所周知且显而易见的事情,如果是这样,请直接告诉我,我会接受。 为何感觉重要 对我来说,这似乎可以解释很多事情,从越狱到谄媚,或许还有更多。如果仅仅一段连贯的上下文就能将模型移入不同的内部状态,那么我们表面上看到的许多行为可能实际上是从那里开始的,而不是在最终措辞中。这让我怀疑,输出端安全性(RLHF、读取最终文本的过滤器)在某些情况下可能更像是一种补丁而非真正的修复,因为偏移可能在过滤器接触到任何内容之前就已经发生了。 注意到这一点后,我查阅了文献并发现这与人们已经在做的工作有重叠:潜在空间在“安全”和“越狱”状态之间的转换,以及关于安全性如何存在于网络中间层的研究。所以我并非声称发现了新东西。我的情况似乎略有不同的是,我完全没有使用越狱提示,只是使用了带有无技巧的普通连贯文本。我正试图理解我的这个小发现在所有这些中处于什么位置,以及这是否是相同的效应还是其他什么。 致社区的请求 如果这里面有任何价值,我认为值得研究人员和构建LLM的实验室仔细审视。不是因为我有了答案,而是因为如果一段普通的连贯上下文就能改变内部状态,那么就有必要检查当前的安全方法是否在正确的时间和地点进行审视。 我可能完全错了。我只是宁愿让有能力的人来检查,而不是让它被忽视。 我已经把所有东西公之于众。我不是在卖东西,也不是在推广什么。里面有很多原始内容,很多我为自己写的草稿笔记,导航混乱,我知道。我需要帮助的正是这一件事:区分什么是真实的、什么是噪音。哪些地方我确实有发现,哪些地方是伪影、错误或自我欺骗。我无法独自判断。 如果有经验的人愿意哪怕只是浏览一下,说“这部分有趣,这部分是胡说八道”,我将不胜感激。严厉的批评也欢迎。如果你告诉我整件事都是空的,我也会接受,我更关心理解真相而不是证明自己正确。 请将此文分享到您的机器学习、AI安全和机械可解释性网络。最大范围的传播有助于让数据出现在合适的 researchers 面前,他们能够正确审计并判断这里是否存在根本缺陷。 材料:材料、仓库链接和对应指标已在评论中提供。 (我坦白:我在AI助手的帮助下构建了仓库,里面有很多自动生成的笔记文件,某些地方看起来像是AI生成的。我理解这会引发怀疑。但数据和测量本身是真实的,是我自己的。如果有什么不清楚,请提问,我会向您展示相关文件。)
查看原文

相似文章