友善重写:通过重写实现良性投影以防御LLM数据投毒攻击
摘要
本文提出开放式良性重写(OBBR)作为针对大语言模型后门攻击的主动防御方法,通过将有害内容投影到良性提示来中和风险,相较于最先进的防御方法,安全性提升51%。
查看缓存全文
缓存时间: 2026/05/20 22:40
论文页面 - 善良重写:通过良性重写抵御大语言模型数据投毒攻击
来源:https://huggingface.co/papers/2605.19147
摘要
开放式良性重写通过良性提示投射有效中和有害内容,从而有效防御大语言模型的后门攻击,在保持计算效率和自然语言任务性能的同时,其防御效果优于现有防御方法。
大语言模型(https://huggingface.co/papers?q=Large%20language%20models)(LLM)极易受到后门攻击(https://huggingface.co/papers?q=backdoor%20attacks)的影响,在这种攻击中,训练样本被植入基于触发器的有害内容(https://huggingface.co/papers?q=trigger-based%20harmful%20content)。此外,现有防御措施在经过后门攻击模式的广泛测试后被证明效果不佳。为了更好地对抗后门攻击,我们探索了利用大语言模型重写作为对抗数据投毒(https://huggingface.co/papers?q=data%20poisoning)的主动防御手段。首先,我们从理论上证明,当大语言模型重写使用开放式的良性样本(即开放式良性重写(https://huggingface.co/papers?q=open-book%20benign%20rewriting),OBBR)时,重写输出为良性的概率严格大于封闭式重写(https://huggingface.co/papers?q=closed-book%20rewriting)。因此,OBBR通过将训练样本投射到良性提示(https://huggingface.co/papers?q=benign%20prompts)空间来中和有害内容。随后我们证明,与之前的防御方法相比,OBBR能有效缓解大量现有后门攻击:在五种已知后门攻击和四种广泛使用的大语言模型上,与最先进的后门攻击防御方法相比,OBBR将安全性平均提升了51%;与封闭式重写(https://huggingface.co/papers?q=closed-book%20rewriting)方法相比提升了25.7%。最后,我们证明OBBR相对于其他后门攻击防御方法在计算上高效,不会降低微调后模型在自然语言任务上的性能,并且能够抵御非基于触发器的数据投毒(https://huggingface.co/papers?q=data%20poisoning)攻击。
查看 arXiv 页面 (https://arxiv.org/abs/2605.19147) 查看 PDF (https://arxiv.org/pdf/2605.19147) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19147)
在您的智能体中获取此论文:
hf papers read 2605.19147
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型引用此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。
引用此论文的数据集0
没有数据集引用此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。
引用此论文的 Spaces0
没有 Space 引用此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
请将此论文添加到一个收藏集(https://huggingface.co/new-collection)中以从此页面链接。
相似文章
通过轨迹重写保护语言模型免受未授权蒸馏
研究者提出轨迹重写方法,可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏,并嵌入可检测的水印。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。
Chainwash:扩散语言模型水印的多步重写攻击
本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。
隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
更难防御:面向中文的通过隐式增强与混淆重写实现的毒性攻击
本文提出了CITA框架,用于生成中文隐式毒性攻击,以评估和改进大语言模型的毒性检测器,在测试模型上实现了较高的攻击成功率。