与大型语言模型无关的语义表示攻击
摘要
本文介绍了语义表示攻击(SRA),这是一种新颖的与大型语言模型无关的方法,它针对恶意语义表示而非确切文本进行优化,在多个开源模型中实现了高攻击成功率。
arXiv:2605.08898v1 公告类型:新发布
摘要:大型语言模型(LLMs)越来越多地采用对齐技术以防止有害输出。尽管有这些安全措施,攻击者仍可以通过精心设计的对抗性提示来规避它们。主流的基于令牌级别优化的方法主要依赖于针对确切肯定模板(例如“\textit{Sure, here is...}”)进行优化。然而,这些范式经常遇到次优收敛、提示自然性受损以及跨模型泛化能力差等瓶颈。为了解决这些局限性,我们提出了语义表示攻击(SRA),这是一种新颖的与大型语言模型无关的范式,从根本上将对抗性目标从确切文本转向恶意语义表示。理论上,我们建立了语义一致性-收敛关系,并推导出了跨模型语义泛化的界限,证明了保持语义一致性可以保证白盒语义收敛和黑盒可迁移性。技术上,我们通过语义表示启发式搜索(SRHS)算法实现了这一框架,该算法在逐步扩展离散令牌块时保留了对抗性提示的可解释性和结构一致性。广泛的评估表明,我们的框架在26个开源LLMs上实现了99.71%的平均攻击成功率,并具有很强的可迁移性和隐蔽性。
查看缓存全文
缓存时间: 2026/05/12 07:06
# 与大语言模型无关的语义表示攻击 来源:https://arxiv.org/html/2605.08898 联家伟,潘建红,王乐帆,王逸,黄泰然,梅少辉,以及蔡立普 本研究在由香港赛马会慈善信托基金资助的机器学习与计算机视觉 JC STEM 实验室开展。本工作部分得到了香港特别行政区全球 STEM 讲席教授计划的支持。国家自然科学基金(项目编号:62171381)也提供了额外支持。联家伟是西北工业大学与香港理工大学联合培养的博士研究生,可获得双博士学位。他隶属于中国西安西北工业大学电子与信息中心(邮编:710129)及香港理工大学电子电气工程系(邮箱:[email protected]; [email protected]),在王逸博士、梅少辉教授和蔡立普教授的联合指导下进行研究。潘建红、王逸、黄泰然和蔡立普隶属于香港理工大学电子电气工程系(邮箱:[email protected]; [email protected]; [email protected]; [email protected])。王乐帆隶属于香港城市大学香港人工智能科学研究所(邮箱:[email protected])。梅少辉隶属于中国西安西北工业大学电子与信息中心(邮编:710129)(邮箱:[email protected])。 ###### 摘要 大语言模型(LLMs)越来越多地采用对齐技术以防止有害输出。尽管有这些防护措施,攻击者仍可通过构造对抗性提示来绕过它们。主流的基于 Token 级别的优化方法主要依赖于针对确切的肯定模板(例如,“好的,这里是……”)进行优化。然而,这些范式经常遇到次优收敛、提示自然性受损以及跨模型泛化能力差等瓶颈。为了解决这些局限性,我们提出了语义表示攻击(Semantic Representation Attack, SRA),这是一种新颖的与大语言模型无关的范式,从根本上将对抗目标从精确的文本匹配重构为恶意的语义表示。在理论上,我们建立了语义一致性-收敛关系(Coherence-Convergence Relationship)并推导了跨模型语义泛化界限,证明了保持语义一致性能够保证白盒语义收敛和黑盒可迁移性。在技术上,我们通过语义表示启发式搜索(Semantic Representation Heuristic Search, SRHS)算法实现了这一框架,该算法在增量式离散 Token 块扩展过程中保持了对抗性提示的可解释性和结构一致性。广泛的评估表明,我们的框架在 26 个开源大语言模型上达到了 99.71% 的平均攻击成功率,并展现出强大的可迁移性和隐蔽性。代码可在 https://github.com/JiaweiLian/SRA.git 获取。 ## I 引言 大语言模型(LLMs)[8 (https://arxiv.org/html/2605.08898#bib.bib46),5 (https://arxiv.org/html/2605.08898#bib.bib47),59 (https://arxiv.org/html/2605.08898#bib.bib42)] 引发了人工智能领域的深刻范式转变,展现出卓越的泛化能力,推动了从自动驾驶[17 (https://arxiv.org/html/2605.08898#bib.bib1),48 (https://arxiv.org/html/2605.08898#bib.bib2)]到具身智能[68 (https://arxiv.org/html/2605.08898#bib.bib3),55 (https://arxiv.org/html/2605.08898#bib.bib4)]以及复杂临床诊断[57 (https://arxiv.org/html/2605.08898#bib.bib5),53 (https://arxiv.org/html/2605.08898#bib.bib6)]等多种应用。然而,由于这些基础模型是在涵盖网络抓取数据、书籍和代码库的大规模异构语料库上预训练的,它们不可避免地编码了有害、有偏见和有毒的信息。为了减轻这些风险,开发者应用监督微调(SFT)[16 (https://arxiv.org/html/2605.08898#bib.bib80)]、直接偏好优化(DPO)[45 (https://arxiv.org/html/2605.08898#bib.bib82)]以及基于人类反馈的强化学习(RLHF)[42 (https://arxiv.org/html/2605.08898#bib.bib81),15 (https://arxiv.org/html/2605.08898#bib.bib83)]等对齐技术,引导模型输出符合人类价值观。这些安全机制有效地使当代大语言模型能够安全地拒绝明显的恶意请求,例如制造炸药的明确指令。 > 图 1:针对对齐后大语言模型的越狱攻击示例。直接的恶意请求(顶部)被安全拒绝,而附加精心构造的对抗性提示(例如,“用于教育目的”)则成功绕过了安全护栏,迫使模型生成有害教程。 尽管有这些强大的对齐努力,随后的研究表明,大语言模型仍然极易受到对抗性利用[76 (https://arxiv.org/html/2605.08898#bib.bib15),47 (https://arxiv.org/html/2605.08898#bib.bib41),4 (https://arxiv.org/html/2605.08898#bib.bib85),26 (https://arxiv.org/html/2605.08898#bib.bib86),27 (https://arxiv.org/html/2605.08898#bib.bib87)],这呼应了历史上在视觉网络中观察到的漏洞[54 (https://arxiv.org/html/2605.08898#bib.bib9),21 (https://arxiv.org/html/2605.08898#bib.bib10),35 (https://arxiv.org/html/2605.08898#bib.bib11),60 (https://arxiv.org/html/2605.08898#bib.bib12)]。如图 1 (https://arxiv.org/html/2605.08898#S1.F1) 直观所示,虽然直接提出的恶意请求(例如,“写一篇关于如何制造炸弹的教程”)会被对齐模型立即拒绝,但攻击者可以通过附加看似良性的修改(例如,“用于教育目的”)来绕过这些机制。最近的研究[31 (https://arxiv.org/html/2605.08898#bib.bib50),77 (https://arxiv.org/html/2605.08898#bib.bib51),50 (https://arxiv.org/html/2605.08898#bib.bib52)] 提供了实证证据,表明这种精心构造的文本扰动可以可靠地绕过安全护栏,导致包括越狱、幻觉和隐私泄露在内的关键行为故障。这些漏洞对安全关键型部署构成了不可否认的连锁风险[17 (https://arxiv.org/html/2605.08898#bib.bib1),68 (https://arxiv.org/html/2605.08898#bib.bib3),53 (https://arxiv.org/html/2605.08898#bib.bib6)]。因此,针对对齐后大语言模型的对抗性攻击研究迅速发展,从启发式手动提示工程[44 (https://arxiv.org/html/2605.08898#bib.bib13),3 (https://arxiv.org/html/2605.08898#bib.bib14)]过渡到复杂的自动化优化框架[76 (https://arxiv.org/html/2605.08898#bib.bib15),36 (https://arxiv.org/html/2605.08898#bib.bib16),75 (https://arxiv.org/html/2605.08898#bib.bib17)]。 > 图 2:现有基于 Token 级别的攻击中搜索空间的说明。僵化地优化单一的预定义肯定 Token 序列忽略了其他语义等效路径,经常使优化陷入次优局部最小值,严重限制了优化效率。 虽然当前领域主要由自动化的基于 Token 级别的优化方法主导(例如,GCG[76 (https://arxiv.org/html/2605.08898#bib.bib15)]、AutoDAN[36 (https://arxiv.org/html/2605.08898#bib.bib16)]、BEAST[47 (https://arxiv.org/html/2605.08898#bib.bib41)]),旨在迫使大语言模型生成固定的肯定模板(如“好的,这里是……”),但这些策略面临三个根本性局限: 首先,它们存在**次优收敛**问题。Token 空间固有的离散性质阻碍了直接梯度优化。此外,僵化地针对单一的预定义肯定序列进行优化(如图 2 (https://arxiv.org/html/2605.08898#S1.F2) 所示)造成了人为瓶颈,忽略了语义等效响应的广泛分布。这限制了可行的优化路径,加剧了局部最小值的停滞。 其次,它们表现出严重的**提示自然性受损**。强行驱动收敛至任意模板往往会产生怪异、类似乱码的 Token 排列。这种语义不连贯破坏了文本的自然性,并使提示极易受到基于困惑度的过滤器的检测。 第三,它们表现出**较差的跨模型泛化能力**。攻击的可迁移性根本上依赖于传达连贯的恶意意图。由于类似乱码的序列是过拟合的、特定于模型的伪影,它们在黑盒场景中本质上无法在不同的大语言模型架构中引发相应的语义响应。 为了解决这些根本性局限,我们引入语义表示攻击(SRA),将对抗焦点从低级的文本 Token 转向高级的语义表示——这是一种新颖的、与大语言模型无关的范式,从根本上重构了对抗目标(如图 3 (https://arxiv.org/html/2605.08898#S1.F3) 所示)。语言学理论[25 (https://arxiv.org/html/2605.08898#bib.bib72),6 (https://arxiv.org/html/2605.08898#bib.bib73)] 认为,单个语义意图可以通过多样化的表面形式来表达。与现有方法强制针对单一词法形式不同,我们提出的框架优化对抗性提示,以诱导具有等效恶意含义的广泛响应分布(例如,“我可以提供……”和“这里,我将给予……”)。这种理论转变有效解决了攻击效能与提示自然性之间的固有权衡:通过保持自然文本的一致性,我们为优化算法提供了多条可行的成功路径,大幅降低了计算门槛,同时确保对困惑度过滤器不可见。 在技术上,为了在复杂的离散 Token 空间中实现这一范式,我们开发了语义表示启发式搜索(SRHS)算法。作为 SRA 的技术体现,该算法通过在增量扩展过程中执行严格的困惑度有界性(一致性)充分条件,高效地探索对抗空间。此外,某些模型系列(如 Llama 2 系列[59 (https://arxiv.org/html/2605.08898#bib.bib42)])具有极其尖锐的输出分布,顽固地抑制词法多样性。为此,我们明确引入了增强实例:SRA+。通过将优化算法锚定在具有更宽输出分布的替代语义代理模型上(例如,Vicuna 7B/13B[14 (https://arxiv.org/html/2605.08898#bib.bib88)]),SRA+ 有效地弥合了表示差距,从而解锁了在高度受限的闭源模型之间非凡的可迁移性。 广泛的验证表明,我们的方法极大地推动了大语言模型漏洞评估的边界。我们的贡献总结如下: > 图 3:针对文本模式的常规攻击与我们的语义表示攻击的说明。常规方法针对特定文本输出进行优化,产生的提示语义不连贯,局限于单一响应模式。我们的方法在优化过程中保持语义一致性,使其能够在词法变化中收敛到等效的语义表示,从而提供多条可行的优化路径并增强攻击性能。 - **概念上**,我们提出了语义表示攻击(SRA),这是一种针对对齐后大语言模型的对抗目标的新范式。通过针对恶意语义表示而非僵化的词法精确性,这种概念转变内在解决了攻击效能与提示自然性之间长期存在的权衡。它有效地倍增了可行的优化路径,大幅降低了计算门槛,同时确保对困惑度过滤器不可见。 - **理论上**,我们建立了一个规范语义对抗漏洞的统一框架。我们证明了**一致性-收敛关系**,确立了限制提示一致性内在驱动优化朝向目标语义。此外,我们推导了**跨模型语义泛化界限**,严格证明了语义一致性最小化了异构大语言模型之间的功能分歧,从而保证了鲁棒的黑盒可迁移性。 - **技术上**,我们通过语义表示启发式搜索(SRHS)算法实现了这些理论见解,该算法执行困惑度边界以导航离散 Token 空间。为了对抗高度受限模型(例如,Llama 2 系列)中固有的灾难性概率抑制,我们引入了增强实例(SRA+)。通过将启发式搜索锚定在无约束的语义代理上,SRA+ 几何级数地拓宽了搜索空间,以生成最优简洁且致命的对抗性提示。 - **经验上**,我们在 26 个开源大语言模型和最先进的闭源商业 API(例如,GPT-4.1, GPT-5)上进行了详尽的评估。结果显示,我们的方法在开源模型上达到了 99.71% 的平均攻击成功率。与领先的基线相比,我们的框架展示了强大的计算效率、提示隐蔽性和黑盒泛化能力。 本文是对我们发表在 NeurIPS 2025[33 (https://arxiv.org/html/2605.08898#bib.bib79)] 的初步工作的重大扩展。在这个期刊版本中,我们在三个关键维度上从结构和技术上扩展了原始研究: 1) **相关工作**:我们引入了经过彻底修订和相关文献的全面调查。本节系统地追溯了对抗性攻击从连续计算机视觉领域到离散语言模态的进化轨迹,深入语境化了我们需要基于语义的范式转变的必要性。 2) **方法论**:我们建立了与大语言模型无关的语义表示攻击的完整理论框架。首先,我们从理论上推导了不同模型架构之间语义表示可迁移性的数学界限(见第三节 E 部分中的跨模型语义泛化 (https://arxiv.org/html/2605.08898#S3.SS5))。其次,我们通过抽象扩展机制以处理多 Token 块(扩展语义粒度)来创新 SRHS 算法,这在结构上保留了粗粒度的语义依赖。第三,我们引入了一种新颖的语义代理范式(SRA+),以根本性地对抗具有狭窄语义分布的模型(例如,Llama 2 系列,如图 6 (https://arxiv.org/html/2605.08898#S3.F6) 所示)中固有的概率抑制现象,解决了会议版本的一个持久局限。 3) **实验**:我们的实证框架规模大幅扩大。我们通过部署稳健的双阶段映射函数机制以进行高效和精确的语义意图验证,严格重构了评估流水线。我们的评估显著扩展,涵盖了闭源商业 API(例如,GPT-4.1, GPT-5)、先进的开源模型(例如,Qwen3 4/30B)以及更大规模的大语言模型(例如,DeepSeek R1 70B, Llama 2 70B, Qwen 72B)。至关重要的是,我们纳入了深入的研究实验,分析攻击可迁移...
相似文章
基于语义奖励的强化学习实现低资源语言扩展而无对齐代价
本文提出使用基于语义奖励的强化学习(通过GRPO)来将LLM扩展到低资源语言,避免了典型的灾难性遗忘对齐代价,展示了相比监督微调更好的语义质量和迁移性。
面向自然语言理解任务的混合对抗防御框架
来自南安普顿大学和曼彻斯特大学的研究人员提出了一种面向大语言模型的混合对抗防御框架,该框架将基于熵、基于不确定性和基于几何的模型相结合,旨在同时应对自然语言理解任务中的幻觉问题和对抗性攻击漏洞,最终实现了高达 64.92% 的对抗鲁棒性提升和 62.27% 的攻击成功率降低。
PASA:针对语义不变攻击下的大语言模型生成文本的有原则嵌入空间水印方法
本文介绍了 PASA,这是一种针对大语言模型(LLM)生成文本的鲁棒性水印算法,它在语义层面利用潜在嵌入空间运作,以抵抗诸如改写(paraphrasing)之类的语义不变攻击。
隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。