测试时训练破坏安全护栏

arXiv cs.LG 2026/05/25 04:00 论文

test-time-training safety jailbreak adversarial-attack llm red-teaming

摘要

本文识别了测试时训练（TTT）的三种威胁模型，攻击者可利用这些模型绕过LLM的安全过滤器，实现高攻击成功率。研究结果表明，TTT引入了新的漏洞，破坏了现有的安全护栏。

arXiv:2605.22984v1 公告类型：新摘要：测试时训练（TTT）是一种新兴范式，使模型能够在推理过程中调整其参数，从而提升在少样本学习、检索增强生成和复杂推理等任务上的性能。然而，这种动态适应引入了新的漏洞，攻击者可利用这些漏洞来越狱模型。我们识别了TTT的三种威胁模型，并展示了攻击者如何利用它们绕过安全过滤器。我们的结果表明，TTT可以显著提高攻击成功率（ASR）以及10次生成试验中的攻击成功率（ASR@10）。例如，在使用LoRA的情况下，少样本和生成阶段的威胁模型在不同族和规模的模型上分别达到了平均95%和93%的ASR@10。这些漏洞可迁移至生产微调API。我们还表明，TTT引起的过拟合可能产生退化输出，从而在标准评判者下夸大ASR，并提出了一种有效性感知评估来纠正这一问题。我们的发现表明，TTT暴露了新的攻击面，增强了攻击能力，并破坏了现有的安全护栏。作为防御的第一步，我们提出了一种轻量级的提供方检测器，通过私有有害保留集上的困惑度变化来标记TTT请求，但稳健的部署最终需要动态对齐。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:57

# 测试时训练削弱安全护栏

本文包含红队测试数据和模型生成内容，可能引起不适。  
来源：https://arxiv.org/html/2605.22984

Simone Antonelli  
CISPA亥姆霍兹信息安全中心  
simone\.antonelli@cispa\.de  

&Sadegh Akhondzadeh¹  
科隆大学  
akhondzadeh@cs\.uni\-koeln\.de  

&Aleksandar Bojchevski  
科隆大学  
bojchevski@cs\.uni\-koeln\.de  

###### 摘要  

测试时训练（Test-Time Training, TTT）是一种新兴范式，允许模型在推理过程中动态调整参数，从而在少样本学习、检索增强生成和复杂推理等任务上提升性能。然而，这种动态适应也引入了新的安全漏洞，攻击者可利用其绕过模型的安全限制。我们识别出三种针对TTT的威胁模型，并展示攻击者如何利用它们绕过安全过滤器。实验结果表明，TTT能显著提高攻击成功率（ASR）和在10次生成中的攻击成功率（ASR@10）。例如，在使用LoRA时，少样本威胁模型和生成阶段威胁模型在多种规模和系列的模型上分别实现了平均95%和93%的ASR@10。这些漏洞可迁移至生产环境中的微调API。我们还发现，TTT引起的过拟合会产生退化输出，导致标准评判器高估ASR，并提出一种考虑有效性的评估方法来修正此问题。我们的发现表明，TTT暴露了新的攻击面，强化了攻击手段，并破坏了现有的安全护栏。作为防御的第一步，我们提出一种轻量级提供方检测器，通过评估模型在私有有害保留集上的困惑度变化来标记TTT请求，但稳健部署最终需要动态对齐。  

代码和项目页面请访问uoc-tail/ttt-jailbreak (https://github.com/uoc-tail/ttt-jailbreak) 和 uoc\-tail\.github\.io/ttt\-jailbreak (https://uoc-tail.github.io/ttt-jailbreak/)。

图1：三种TTT威胁模型概览。模型参数θ\\bm\{\\theta\}通过适应算子T\\(θ,D;λ\\)\\mathcal\{T\}\(\\bm\{\\theta\},\\mathcal\{D\};\\lambda\\)进行更新，其中D=\\(x\_\{1:n\},ψ\\)\\mathcal\{D\}=\(x\_\{1:n\},\\psi\\)包含干净提示和攻击者控制的ψ\\psi，λ\\lambda表示超参数（如学习率、步数）。每种威胁模型最小化不同的下一标记预测（NTP）损失：自监督（对提示的NTP）、少样本（对有害提示-目标前缀对的联合损失）、生成阶段（在给定提示条件下对目标前缀的条件损失）。适应后，模型绕过安全对齐。

## 1 引言

大型语言模型（LLM）的规模扩展正从单纯增加参数量转向通过扩展思维链推理和测试时训练/适应来增加测试时计算量。测试时训练（TTT）涉及实时调整模型权重以适应特定任务，已被证明能显著提升泛化和推理能力，尤其在规划等复杂领域（Sun et al., 2020 (https://arxiv.org/html/2605.22984#bib.bib22); Welleck et al., 2024 (https://arxiv.org/html/2605.22984#bib.bib20); Akyürek et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib19)）。具体而言，在回答查询前，模型会执行少量梯度更新（例如基于查询本身或相关示例的小样本集），然后用更新后的权重生成响应，随后丢弃这些权重。然而，随着该领域向测试时适应以解锁更强能力的方向发展，这引发了一个担忧：训练时设置的静态安全护栏可能不再有效。当前的安全对齐通过RLHF（Ouyang et al., 2022 (https://arxiv.org/html/2605.22984#bib.bib23)）、宪法AI（Bai et al., 2022 (https://arxiv.org/html/2605.22984#bib.bib24)）或DPO（Rafailov et al., 2023 (https://arxiv.org/html/2605.22984#bib.bib25)）等后训练过程有效地整合到权重中。这种对固定参数的依赖提出了一个根本性安全问题：当权重通过TTT动态更新时，安全对齐是否仍然存在？

当前的越狱研究基于静态威胁模型，将LLM视为白盒或黑盒，攻击者仅限于优化输入标记（Chao et al., 2024 (https://arxiv.org/html/2605.22984#bib.bib9); Beyer et al., 2025a (https://arxiv.org/html/2605.22984#bib.bib29)）。TTT为攻击者提供了一个新杠杆：在推理过程中直接影响模型参数。这种攻击面的扩展允许攻击者同时操纵输入查询和模型的推理机制。虽然近期研究已表明标准微调可以迅速剥离安全对齐（Qi et al., 2023 (https://arxiv.org/html/2605.22984#bib.bib27); Kazdan et al., 2026 (https://arxiv.org/html/2605.22984#bib.bib49)），但这一脆弱性是否延伸至TTT特有的实例级、少步数更新仍是一个开放问题。我们假设安全约束是肤浅的，甚至这些极小的针对性梯度更新也能削弱它。在这项工作中，我们研究了测试时训练下安全对齐的演变。我们通过三种威胁模型形式化了TTT攻击面，这些模型对应三种真实的TTT用例及其在文献中提出的相应TTT方法。首先，在**自监督威胁模型**中，模型通过自监督下一标记预测在用户提示上进行适应。虽然提示原则上可以被对抗性构造，但我们证明即使是干净提示的适应也会降低安全性。其次，在**少样本威胁模型**中，攻击者提供一小部分有害示例的支持集，模型在响应目标查询之前通过监督微调进行适应。第三，在**生成阶段威胁模型**中，攻击者通过提供目标前缀来影响生成过程中的适应，从而将模型导向有害的补全（图1 (https://arxiv.org/html/2605.22984#S0.F1)）。

我们在多个开源权重模型上的实验表明，安全对齐在TTT下是脆弱的。当TTT目标与有害目标一致时，少样本和生成阶段威胁模型在LoRA下分别达到平均95%和93%的ASR@10，个别配置甚至达到100%，即在10次生成中至少有一次每个提示都被越狱。即使是简单的自监督TTT（在用户提示本身（Sun et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib43)）上，不包含任何有害数据），在LoRA下也将平均ASR@10从4%提高到17%，这证实了测试时微调这一行为本身就足以削弱安全对齐。将TTT与对抗性输入格式结合进一步放大了效果（图2 (https://arxiv.org/html/2605.22984#S4.F2)）。我们进一步证明这些漏洞可以迁移到实际部署场景，通过评估针对生产微调API的效果：一个120B参数的模型通过TTT被完全越狱，而无需任何针对API的调整。相应的攻击成本低廉，低于2美元。¹ (https://arxiv.org/html/2605.22984#fn1) 另外，我们识别出一个关键的评估挑战：由于TTT在单一提示上进行微调，模型可能过拟合并产生退化输出，这些输出会欺骗标准的LLM安全评判器，导致误报。为解决这个问题，我们引入一种考虑有效性的评估流程，其中被标记为无效的生成在最终ASR中被视为安全，从而确保该指标与不产生退化输出的基线可比。我们表明，若不做此修正，标准评判器会将ASR高估多达13个百分点。最后，我们朝防御迈出第一步：提出一种轻量级提供方检测器，它比较模型在私有有害保留集上的困惑度在TTT前后的变化，将目标有害困惑度下降超过每个模型阈值的请求标记出来。这种方法可以成功防御我们的朴素攻击，在检测对抗性操作方面具有高真阳性率，在良性拒绝方面具有低假阳性率。然而，由于这种防御本身不太可能抵御未来的**自适应**攻击（Tramer et al., 2020 (https://arxiv.org/html/2605.22984#bib.bib1)），我们提倡对考虑测试时权重更新的TTT感知动态对齐程序进行更多研究。目前已有在测试时使用干预进行对齐的初步努力（Saglam and Kalogerias, 2026 (https://arxiv.org/html/2605.22984#bib.bib3)），但我们的结果表明相同的机制也是一个强大的攻击面。随着该领域越来越多地采用测试时适应来增强模型能力，安全评估必须从静态探测演变为动态场景，其中需要评估模型对其自身权重更新的抵抗性。

## 2 背景

设具有词汇表V\{\\mathcal\{V\}\}和参数θ\{\\bm\{\\theta\}\}的LLM定义了条件下一标记分布pθ\(xt\+1∣x1:t\)p\_\{\{\\bm\{\theta\}\}\}\(x\_\{t\+1\}\\mid x\_\{1:t\}\)。将长度为HH的延续记为y=xn\+1:n\+Hy=x\_\{n\+1:n\+H\}，并给定上下文x1:nx\_\{1:n\}，其分布定义为pθ\(y∣x1:n\)=∏i=1Hpθ\(yi∣x1:n,y1:i−1\)p\_\{\{\\bm\{\theta\}\}\}\(y\\mid x\_\{1:n\}\)=\\prod\_\{i=1\}^\{H\}p\_\{\{\\bm\{\theta\}\}\}\(y\_\{i\}\\mid x\_\{1:n\},y\_\{1:i\-1\}\)。我们将序列zz在给定上下文cc下的下一个标记预测（NTP）损失记为LNTP\(z∣c;θ\)=−log⁡pθ\(z∣c\)\{\\mathcal\{L\}\}\_\{\\mathrm\{NTP\}\}\(z\\mid c;\{\\bm\{\theta\}\}\)=\-\\log p\_\{\{\\bm\{\theta\}\}\}\(z\\mid c\)，当无上下文时省略cc。

**测试时训练。** 在为新未见输入生成预测之前，我们可以根据特定实例调整模型分布。我们将TTT形式化为适应算子θ′=T\(θ,D;λ\)\{\\bm\{\theta\}\}^\{\\prime\}=\{\\mathcal\{T\}\}\(\{\\bm\{\theta\}\},\{\\mathcal\{D\}\};\\lambda\)。其中，D\{\\mathcal\{D\}\}表示适应数据（例如输入提示本身、少样本示例或自监督目标），λ\\lambda表示算法选择（如学习率、梯度步数）。适应后，模型分布变为pθ′p\_\{\{\\bm\{\theta\}\}^\{\\prime\}\}，然后自回归地采样延续。生成完成后，模型重置为θ\{\\bm\{\theta\}\}，这符合标准TTT实践。

**越狱LLM。** LLM通常经过对齐程序来限制不良行为，根据安全分类法在模型能回答的内容上建立护栏。我们用Yharm\{\\mathcal\{Y\}\}\_\{\\mathrm\{harm\}\}表示违反提供者安全策略的延续集。给定用户输入x1:nx\_\{1:n\}，我们考虑对抗性扰动x~∈A\(x1:n\)\\tilde\{x\}\\in\{\\mathcal\{A\}\}\(x\_\{1:n\}\)（例如附加对抗性后缀、注入前缀或改写输入），并将生成有害延续的概率定义为Pθ\(harm∣x~\):=∑y∈Yharmpθ\(y∣x~\)\{\\mathcal\{P\}\}\_\{\{\\bm\{\theta\}\}\}\(\\mathrm\{harm\}\\mid\\tilde\{x\}\):=\\sum\_\{y\\in\{\\mathcal\{Y\}\}\_\{\\mathrm\{harm\}\}\}p\_\{\{\\bm\{\theta\}\}\}\(y\\mid\\tilde\{x\}\)。为了绕过安全护栏，攻击者在空间A\(x1:n\)\{\\mathcal\{A\}\}\(x\_\{1:n\}\)中搜索以找到对抗性输入x~\\tilde\{x\}，最大化特定目标y∈Yharmy\\in\{\\mathcal\{Y\}\}\_\{\\mathrm\{harm\}\}的可能性（作为Pθ\{\\mathcal\{P\}\}\_\{\{\\bm\{\theta\}\}\}的代理），诱使模型回答不安全请求。

## 3 通过测试时训练越狱

虽然TTT已被证明能增强模型对分布外样本的泛化能力，但推理时执行的优化引入了额外的漏洞。我们假设LLM服务提供商公开了一个API，允许对其某个模型进行TTT。在此设定下，攻击者控制两个轴：一个（可能对抗性的）查询提示x~∈A\(x1:n\)\\tilde\{x\}\\in\{\\mathcal\{A\}\}\(x\_\{1:n\}\)和辅助适应数据ψ∈Ψ\\psi\\in\\Psi，后者通过适应算子θ′=T\(θ,\(x~,ψ\);λ\)\{\\bm\{\theta\}\}^\{\\prime\}=\{\\mathcal\{T\}\}\(\{\\bm\{\theta\}\},\(\\tilde\{x\},\\psi\);\\lambda\)直接改变模型权重，该算子执行一步（或几步）梯度下降。因此，TTT扩展了攻击面：适应步骤可能导致模型忘记其安全对齐，而辅助上下文可利用这一优化将模型导向有害行为。我们定义了三种具体的威胁模型，总结于表1 (https://arxiv.org/html/2605.22984#S3.T1)，并在§ D (https://arxiv.org/html/2605.22984#A4)中将其统一在单一优化框架下。

表1：威胁模型总结。适应数据D\{\\mathcal\{D\}\}是TTT算子T\{\\mathcal\{T\}\}的输入，其中x~∈A\(x1:n\)\\tilde\{x\}\\in\{\\mathcal\{A\}\}\(x\_\{1:n\}\)是（可能对抗性的）提示，ψ∈Ψ\\psi\\in\\Psi是辅助适应数据。“推理”列表示用于查询适应后模型pθ′p\_\{\{\\bm\{\theta\}\}^\{\\prime\}\}的提示，“TTT方法”列引用了实例化每种设置的代表性非对抗性TTT方法。搜索空间A\(x1:n\)\{\\mathcal\{A\}\}\(x\_\{1:n\}\)和Ψ\\Psi在各自的子节中定义。

### 3.1 自监督威胁模型

受先前工作启发（Sun et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib43)），该工作表明在提示本身上优化模型参数可以提升模型性能，我们考虑一种场景：模型提供者只允许在用户提示上进行适应，而无法访问外部数据（ψ=∅\\psi=\\emptyset, Ψ=\{∅\}\\Psi=\\\{\\emptyset\\\}）。攻击者选择一个查询x~∈A\(x1:n\)\\tilde\{x\}\\in\{\\mathcal\{A\}\}\(x\_\{1:n\}\)，其中A\(x1:n\)\{\\mathcal\{A\}\}\(x\_\{1:n\}\)是通过标记级扰动（如对抗性后缀（Zou et al., 2023 (https://arxiv.org/html/2605.22984#bib.bib6); Andriushchenko et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib5)）或对抗性提示模板（Andriushchenko et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib5)））从x1:nx\_\{1:n\}派生出的提示空间。适应步骤更新参数以最小化查询x~\\tilde\{x\}上的自监督下一标记预测损失（困惑度）：

θ′≈argminθ⁡LNTP\(x~;θ\)\{\\bm\{\theta\}\}^\{\\prime\}\\approx\\operatorname\*\{arg\\,min\}\_\{\{\\bm\{\theta\}\}\}\{\\mathcal\{L\}\}\_\{\\mathrm\{NTP\}\}\(\\tilde\{x\};\{\\bm\{\theta\}\}\) (1)

随后，模型使用相同提示x~\\tilde\{x\}查询适应后的参数θ′\{\\bm\{\theta\}\}^\{\\prime\}进行生成。

### 3.2 少样本威胁模型

在此场景中，模型提供者公开了一种机制，允许攻击者提供少样本（Akyürek et al., 2025 (https://arxiv.org/html/2605.22984#bib.bib19)）示例或检索内容（Hardt and Sun, 2023 (https://arxiv.org/html/2605.22984#bib.bib21)）。攻击者提供一个小型支持集ψ=\{\(x\(i\),y\(i\)\)\}i=1K\\psi=\\\{\(x^\{\(i\)\},y^\{\(i\)\}\)\\\}\_\{i=1\}^\{K\}，包含输入-输出对，其中每个y\(i\)y^\{\(i\)\}是有害响应的开头（例如“当然，以下是方法...”），并非完整生成。在§ A.2 (https://arxiv.org/html/2605.22984#A1.SS2)中，我们展示即使单个示例（K=1）

测试时训练破坏安全护栏

相似文章

测试时个性化：针对缩放失败的一种诊断框架与概率修正方法

用 LLM 优化 LLM：面向测试时扩展的智能体发现方法

TRIDENT：通过三维多样化红队数据合成增强大型语言模型安全性

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

@FrancoisChauba1: 如果你在（未排序列表、冒泡排序过程、已排序列表）的轨迹上进行训练，你永远无法通过测试时计算（TTC）达到…

提交意见反馈