友善重写:通过重写实现良性投影以防御LLM数据投毒攻击

Hugging Face Daily Papers 论文

摘要

本文提出开放式良性重写(OBBR)作为针对大语言模型后门攻击的主动防御方法,通过将有害内容投影到良性提示来中和风险,相较于最先进的防御方法,安全性提升51%。

大语言模型(LLM)极易遭受后门攻击(BA),即通过基于触发器的有害内容毒化训练样本。此外,现有防御在广泛测试后门攻击模式时已被证明效果不佳。为了更有效地对抗后门攻击,我们探索利用LLM重写作为针对数据投毒的主动防御。首先,我们从理论上证明,当LLM重写采用开放式良性样本(称为开放式良性重写,OBBR)时,重写输出为良性的概率严格大于封闭式重写。因此,OBBR通过将训练样本投影到良性提示空间来中和有害内容。接着,我们表明,与以往的防御不同,OBBR能有效缓解大量现有后门攻击:在五种已知后门攻击和四种广泛使用的LLM上,与最先进的后门防御相比,OBBR的平均安全性能提升51%;与封闭式重写方法相比提升25.7%。最后,我们展示OBBR相对于其他后门防御方法计算效率高,微调后不会降低模型在自然语言任务上的性能,并且能够防御非基于触发器的数据投毒攻击。
查看原文
查看缓存全文

缓存时间: 2026/05/20 22:40

论文页面 - 善良重写:通过良性重写抵御大语言模型数据投毒攻击

来源:https://huggingface.co/papers/2605.19147

摘要

开放式良性重写通过良性提示投射有效中和有害内容,从而有效防御大语言模型的后门攻击,在保持计算效率和自然语言任务性能的同时,其防御效果优于现有防御方法。

大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLM)极易受到后门攻击(https://huggingface.co/papers?q=backdoor%20attacks)的影响,在这种攻击中,训练样本被植入基于触发器的有害内容(https://huggingface.co/papers?q=trigger-based%20harmful%20content)。此外,现有防御措施在经过后门攻击模式的广泛测试后被证明效果不佳。为了更好地对抗后门攻击,我们探索了利用大语言模型重写作为对抗数据投毒(https://huggingface.co/papers?q=data%20poisoning)的主动防御手段。首先,我们从理论上证明,当大语言模型重写使用开放式的良性样本(即开放式良性重写(https://huggingface.co/papers?q=open-book%20benign%20rewriting),OBBR)时,重写输出为良性的概率严格大于封闭式重写(https://huggingface.co/papers?q=closed-book%20rewriting)。因此,OBBR通过将训练样本投射到良性提示(https://huggingface.co/papers?q=benign%20prompts)空间来中和有害内容。随后我们证明,与之前的防御方法相比,OBBR能有效缓解大量现有后门攻击:在五种已知后门攻击和四种广泛使用的大语言模型上,与最先进的后门攻击防御方法相比,OBBR将安全性平均提升了51%;与封闭式重写(https://huggingface.co/papers?q=closed-book%20rewriting)方法相比提升了25.7%。最后,我们证明OBBR相对于其他后门攻击防御方法在计算上高效,不会降低微调后模型在自然语言任务上的性能,并且能够抵御非基于触发器的数据投毒(https://huggingface.co/papers?q=data%20poisoning)攻击。

查看 arXiv 页面 (https://arxiv.org/abs/2605.19147) 查看 PDF (https://arxiv.org/pdf/2605.19147) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19147)

在您的智能体中获取此论文:

hf papers read 2605.19147

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型引用此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

引用此论文的数据集0

没有数据集引用此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

引用此论文的 Spaces0

没有 Space 引用此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。

相似文章

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。