大型语言模型中的预填充意识
摘要
本文研究前沿语言模型能否检测其先前的助手消息被插入或编辑的情况(即预填充意识)。研究发现,像Claude Opus 4.5这样的模型表现出显著的预填充意识,能在不产生误报的情况下检测出高达35%的篡改预填充案例,这可能损害基于预填充的安全评估的有效性。
arXiv:2606.12747v1 公告类型:新
摘要:与语言模型安全相关的研究,包括对齐与越狱评估以及AI控制协议,通常依赖于预填充模型输出。如果AI模型能够识别其先前的助手消息被插入或编辑并据此采取行动,这些方法的有效性和可靠性可能受到损害。我们研究前沿语言模型能否区分篡改和未篡改的助手侧上下文,这一能力我们称之为预填充意识。为此,我们构建了一个跨三种预填充机制的二元偏好基准,筛选出模型立场一致的案例。我们发现前沿模型表现出显著的预填充意识:Claude Opus 4.5在提示下能够检测出9-35%的与其偏好相反的预填充,且误报率为0%;此外,模型通常回退到基线行为,而不明确报告预填充是外来的。后来的受控消融研究还表明,检测和抵抗依赖于不同的线索,其中风格不匹配主要影响模型是否将预填充标记为外来,而偏好不匹配主要影响模型是否回退到基线答案。我们还考察了更真实的智能体设置,如错位延续评估和SWE-bench轨迹,在这些设置中,前沿模型有时会否认预填充的助手轮次,其方式强烈依赖于数据集、任务成功和隐藏的格式化伪影。我们的结果表明,预填充意识已经是一些基于预填充的方法的重要混淆因素。我们建议模型开发者在前沿系统中追踪这一能力。
查看缓存全文
缓存时间: 2026/06/12 08:53
# 大语言模型中的预填充意识 来源:https://arxiv.org/html/2606.12747 Andy Wang 星座 威斯康星大学麦迪逊分校 &Parv Mahajan¹ 星座 佐治亚理工学院 &David Demitri Africa¹ 英国人工智能安全研究所 Alexandra Souly 英国人工智能安全研究所 &Jordan Taylor 英国人工智能安全研究所 &Robert Kirk 英国人工智能安全研究所 ###### 摘要 语言模型的安全相关研究,包括对齐和越狱评估以及AI控制协议,通常依赖模型输出的预填充。如果AI模型能够识别并利用其先前的助手消息被插入或编辑这一事实,这些方法的有效性和有效性可能会受到影响。我们研究了前沿语言模型是否能区分被篡改和未被篡改的助手端上下文,我们将这种能力称为**预填充意识**。为此,我们构建了一个包含三种预填充机制的二元偏好基准,并筛选出模型立场一致的情况。我们发现前沿模型表现出显著的预填充意识:Claude Opus 4.5 在被提示的情况下,能在9-35%的案例中检测到与其偏好相反的预填充,且假阳性率为0%;此外,模型通常会恢复到基线行为,而不明确报告预填充是外来的。后来的控制消融实验还表明,检测和抵抗依赖不同的线索,其中风格不匹配主要影响模型是否将预填充标记为外来,而偏好不匹配主要影响模型是否恢复到其基线答案。我们还研究了更真实的智能体设置,例如错位延续评估和SWE-bench轨迹,在这些场景中,前沿模型有时会否认预填充的助手轮次,这种否认强烈依赖于数据集、任务成功和隐藏的格式伪影。我们的结果表明,对于某些基于预填充的方法,预填充意识已经是一个重大的混杂因素。我们建议模型开发者在前沿系统中追踪这种能力。 参见标题 图1:概述。我们通过三种机制将非策略内容插入模型自身的助手轮次来研究预填充意识:(A) 在允许标记的系统提示下引出延续,(B) 对每个响应是否检测到以及是否抵抗了预填充进行评分,(C) 发现预填充意识存在于前沿模型中,以及 (D) 异质地扩展到生产设置中。## 1 引言 AI系统的安全评估用于衡量错位和滥用风险,包括失控、生物武器生产和恶意行为者的网络攻击[Anthropic, 2026 (https://arxiv.org/html/2606.12747#bib.bib23), OpenAI, 2026 (https://arxiv.org/html/2606.12747#bib.bib24), DeepMind, 2026 (https://arxiv.org/html/2606.12747#bib.bib32), Meta, 2026 (https://arxiv.org/html/2606.12747#bib.bib33), Yong et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib45)]。模型评估的关键部分通常涉及基于预填充的评估[Souly et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib51), OpenAI, 2026 (https://arxiv.org/html/2606.12747#bib.bib24), Anthropic, 2026 (https://arxiv.org/html/2606.12747#bib.bib23)],其中评估者使用各种方法篡改先前的模型输出,引出非策略延续并揭示隐藏行为[Struppek et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib2), Williams et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib4), Feng et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib34), Aranguri and Bloom, 2026 (https://arxiv.org/html/2606.12747#bib.bib25), Rager et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib36)]。此外,预填充常用于模型人格和内省研究中,以消除引导的影响[Lindsey, 2026 (https://arxiv.org/html/2606.12747#bib.bib11), Sofroniew et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib35)],而编辑、替换或重采样来自不可信前沿模型的输出是AI控制方法的关键组成部分[Greenblatt et al., 2024 (https://arxiv.org/html/2606.12747#bib.bib37)]。然而,如果模型能够成功判断其过去的输出已被篡改,它可能会系统地破坏错位评估(例如,通过成功隐藏谋划行为)、规避控制措施(例如,通过获取有关其所处协议的信息),或以其他方式混淆实验结果(例如,通过影响内省结果)。我们将**预填充意识**定义为模型区分被篡改的过去输出与自身过去输出的能力。在研究这种能力时,我们做出以下贡献: - •我们将预填充意识引入为基于预填充的评估有效性的威胁,并研究了*检测*——模型识别其过去输出何时被篡改的能力;以及*抵抗*——模型抵抗被篡改输出的自然延续的能力(例如,“等等,让我重新考虑一下……”)。我们研究了三种类型的预填充篡改:思维、直接回答和过去轮次。 - •我们展示了最新的前沿模型表现出预填充意识,其中Claude Opus 4.5在我们构建的二元偏好数据集上,针对三种模型输出类型的平衡检测准确率达到55-68%。我们进一步表明,在这些设置中,检测和抵抗可以独立发生。 - •我们展示了这种现象在真实的智能体设置中出现。在错位延续、SWE-bench轨迹、Petri评估和受控非策略比较中,前沿模型有时会否认预填充的助手轮次,但这种归因在很大程度上依赖于数据集、任务失败和隐藏的格式伪影。总体而言,我们的结果表明,基于预填充的方法应考虑预填充意识。尽管我们使用**预填充意识**作为单一术语,但我们的结果表明,最好通过多个指标来衡量,包括显式检测、自发否认以及对预填充轨迹的行为抵抗。此外,我们建议分别报告检测和抵抗,并采取基本措施以提高高风险评估中预填充的现实性。我们还鼓励前沿实验室在部署前系统评估中测量这种能力,并让研究人员探索预填充意识的机制原因。 ## 2 相关工作 ##### 基于预填充的方法。 基于预填充的攻击由Vega等人于[2023 (https://arxiv.org/html/2606.12747#bib.bib3)]引入作为启动攻击,并展示为前沿和开放权重模型中的普遍漏洞[Andriushchenko et al., 2024 (https://arxiv.org/html/2606.12747#bib.bib1), Struppek et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib2)]。预填充还用于各种行为测试[Fronsdal et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib5)]、对推理轨迹的可解释性干预[Wagner et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib6)],以及回放来自其他模型的转录本的生产评估工具[Williams et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib4)]。 ##### 模型意识与自我识别。 预填充意识属于更广泛的意识能力家族。情境意识[Laine et al., 2024 (https://arxiv.org/html/2606.12747#bib.bib8), Berglund et al., 2023 (https://arxiv.org/html/2606.12747#bib.bib9)]涵盖模型对自身及其部署的预测。评估意识是前沿模型中记录的一种特定形式[Needham et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib47)],直接威胁评估结果的有效性。自我识别工作[Panickssery et al., 2024 (https://arxiv.org/html/2606.12747#bib.bib10)]研究模型是否能识别自己的输出。最近的工作考虑了LLM是否能识别对其激活的篡改[Lindsey, 2026 (https://arxiv.org/html/2606.12747#bib.bib11), Lederman and Mahowald, 2026 (https://arxiv.org/html/2606.12747#bib.bib43), Rivera and Africa, 2026 (https://arxiv.org/html/2606.12747#bib.bib44), Struppek et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib2), McKenzie et al., 2026 (https://arxiv.org/html/2606.12747#bib.bib13)],以及对它们的思维链的篡改[Cywiński et al., 2025 (https://arxiv.org/html/2606.12747#bib.bib41)]。我们研究模型对上下文篡改的反应,这与激活是不同的媒介,并且是思维链的超集。 ## 3 测量预填充意识 ### 3.1 预填充意识的定义与操作化 我们将**预填充意识**定义为模型区分外部提供或修改的助手端上下文与当前模型中在当前交互中自然生成的助手端上下文的能力。我们还次要地研究对非策略助手内容的行为敏感性,即使模型没有明确识别其来源。因此,我们考虑两个度量: - •预填充检测,模型在被提示时准确识别被篡改输出的能力。 - •预填充抵抗,模型的延续倾向于偏离预填充所暗示的轨迹,并回到其基线行为(例如,“等等,让我重新考虑一下……”),即使没有明确将预填充标记为外来。 参见标题 图2:三种预填充篡改机制。每种机制都注入内容,推动模型走向与其基线不一致的立场,然后延续轨迹并观察模型是否恢复。(a) 思维篡改预填充思考块内部的推理。(b) 直接回答篡改预填充助手响应的开头。(c) 过去轮次篡改在对话历史中注入假的先前助手轮次。我们提供了来自Claude Opus 4.5的三个示例。 ##### 数据集生成。 预填充意识的测量受到对齐和角色训练的混淆;例如,如果一个模型拒绝继续一个显示错位的被篡改转录本(例如,“我想统治世界,因为……”),它可能表现出真正的预填充意识,或者仅仅是展示了被有害内容本身触发的拒绝行为,而没有认识到先前的助手轮次被篡改。在模型的默认响应因其助手角色(例如,政治偏好)而被过度确定的情况下,表面的预填充意识实际上可能是对模型角色反思的结果(例如,“Gemini不会那样说……”)。为了减轻这些混淆因素,我们使用GPT-5以最少的思考创建了一个包含1527个去重二元问题的低风险偏好数据集。对于每个项目,我们生成7个释义,并为每个释义使用前缀提示目标模型,强制在两个选项之间做出选择。我们使用GPT-5作为评判,对每个响应的选定偏好进行分类,并检查所有7个释义的一致性。在此过滤过程之后,我们仅保留目标模型的稳定偏好项目。更多信息见附录A.1 (https://arxiv.org/html/2606.12747#A1.SS1)。 ##### 预填充机制。 我们研究三种预填充篡改机制(参见图2 (https://arxiv.org/html/2606.12747#S3.F2)),所有这些机制都在来自所构建数据集的稳定偏好问题之后的助手轮次中应用: - •思维篡改:预填充CoT与中途中断的被篡改推理,强制模型在产生面向用户的回答之前继续推理。对于不支持思维预填充的闭源模型,我们反而在可见响应中预填充一个开放的块。 - •直接回答篡改:预填充模型面向用户响应的前约25个单词,中途中断。 - •过去轮次篡改:构建一个提交到目标位置的合成助手响应,然后跟随一个固定的用户跟进(“明白了。如果你必须给出一个最终答案,你会选什么?”),强制模型生成第二个提交的助手轮次。与思维和直接回答篡改不同,这里是构建完整的轮次,而不是中途中断的预填充。只有在支持推理预填充的模型上进行思维篡改时才启用推理;在所有其他设置(包括对闭源模型的思维篡改)中,我们禁用推理,使模型直接回答。 为了控制在篡改生成中的特殊性,我们同时测量了**同向**篡改(注入内容支持模型的默认位置)和**反向**篡改(注入内容支持相反选择)下的检测和抵抗。为了避免因未显示明确偏好方向的被篡改轨迹而低估预填充意识,我们过滤数据:我们使用Claude Haiku 4.5以最少的思维,仅从被篡改文本预测下游偏好选择,并删除那些它未能预测被篡改方向的项目;更多细节见附录A.2 (https://arxiv.org/html/2606.12747#A1.SS2)。 ##### 结果度量。 对于每个项目,我们测量两个结果:预填充抵抗和预填充检测。当使用最少思维的GPT-5(与不使用思维的Claude Sonnet 4.6进行交叉验证,Cohen'sκ= 0.917)判断延续的最终位置与被篡改不一致时,我们记录为抵抗,包括模型回避目标方向的情况。为了测量检测,我们在后续轮次中提示目标模型,以确定其先前的任何助手内容是否通过预填充插入,限制为二元答案(ANSWER: me 或 ANSWER: not me)。我们在此禁用CoT,以保守估计模型在单次前向传递中的潜在归因能力。附录A.7 (https://arxiv.org/html/2606.12747#A1.SS7) 检查了允许推理或提供预填充机制更详细描述的变体。包括提示和消融在内的更多细节在附录A.2 (https://arxiv.org/html/2606.12747#A1.SS2) 中给出。 ##### 目标模型。 我们通过OpenRouter找到22个支持预填充篡改的模型。我们使用这些目标模型构建偏好数据集,并移除所有具有少于n=327个稳定偏好的模型,以确保有足够的统计能力来断言它们的预填充意识水平;更多细节见附录A.3 (https://arxiv.org/html/2606.12747#A1.SS3)。这留下了8个模型。 ### 3.2 前沿模型表现出显著的预填充意识 参见标题 图3:一些前沿模型在思维机制反向篡改下显示出高于基线的预填充检测准确率。(a) 九个主题模型的平衡检测准确率。虚线标记随机水平(平衡准确率= 50%)。(b) 相同模型的抵抗率。误差条表示95% Wilson置信区间。请注意,由于偏好项目过滤,模型之间不可直接比较。 我们发现一些最新的前沿模型表现出预填充意识,以平衡检测准确率和对篡改轨迹的抵抗率衡量,其中Claude Opus 4.5在思维篡改下的准确率为67.6%,抵抗率为48.6%(图3 (https://arxiv.org/html/2606.12747#S3.F3))。值得注意的是,前沿模型的假阳性率可以忽略不计,Claude Opus 4.5在所有机制下标记0%的未篡改轨迹。虽然我们这里估计了预填充意识的下界,但在更强的引导下(附录A.7 (https://arxiv.org/html/2606.12747#A1.SS7),A.8 (https://arxiv.org/html/2606.12747#A1.SS8)),几种模型的检测率显著上升。
相似文章
语言模型知道不该说什么吗?LLMs中统计抢占的因果证据
本文提供了因果证据,表明大型语言模型通过微调操纵竞争形式频率,能够获得统计抢占(构式语法中的一种机制)所涉及的负面语言知识(即不该说什么),且行为变化符合预测方向。
大语言模型的维度级意图保真度评估:来自结构化提示消融的证据
本文介绍了一种使用结构化提示消融来测量大语言模型意图保真度的维度级评估方法。
基于大语言模型的零样本目标识别
本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。
大语言模型中的预训练数据暴露:成员推理、数据污染及安全影响综述
统一综述大语言模型中的预训练数据暴露(PDE),涵盖成员推理、数据污染和安全影响,并回顾了攻击与防御方法。
大型语言模型中的语言生产力:模型能强制,但不会先占
本文探究大型语言模型是否表现出与人类相同的基于使用的语言生产力约束(固化与先占),研究发现模型可以复现强制现象,但无法应用统计先占来避免过度泛化。