友善重写：通过重写实现良性投影以防御LLM数据投毒攻击

Hugging Face Daily Papers 2026/05/18 00:00 论文

llm backdoor-attacks data-poisoning rewriting defense benign

摘要

本文提出开放式良性重写（OBBR）作为针对大语言模型后门攻击的主动防御方法，通过将有害内容投影到良性提示来中和风险，相较于最先进的防御方法，安全性提升51%。

大语言模型（LLM）极易遭受后门攻击（BA），即通过基于触发器的有害内容毒化训练样本。此外，现有防御在广泛测试后门攻击模式时已被证明效果不佳。为了更有效地对抗后门攻击，我们探索利用LLM重写作为针对数据投毒的主动防御。首先，我们从理论上证明，当LLM重写采用开放式良性样本（称为开放式良性重写，OBBR）时，重写输出为良性的概率严格大于封闭式重写。因此，OBBR通过将训练样本投影到良性提示空间来中和有害内容。接着，我们表明，与以往的防御不同，OBBR能有效缓解大量现有后门攻击：在五种已知后门攻击和四种广泛使用的LLM上，与最先进的后门防御相比，OBBR的平均安全性能提升51%；与封闭式重写方法相比提升25.7%。最后，我们展示OBBR相对于其他后门防御方法计算效率高，微调后不会降低模型在自然语言任务上的性能，并且能够防御非基于触发器的数据投毒攻击。

查看原文

查看缓存全文

缓存时间: 2026/05/20 22:40

论文页面 - 善良重写：通过良性重写抵御大语言模型数据投毒攻击

来源：https://huggingface.co/papers/2605.19147

摘要

开放式良性重写通过良性提示投射有效中和有害内容，从而有效防御大语言模型的后门攻击，在保持计算效率和自然语言任务性能的同时，其防御效果优于现有防御方法。

大语言模型（https://huggingface.co/papers?q=Large%20language%20models）（LLM）极易受到后门攻击（https://huggingface.co/papers?q=backdoor%20attacks）的影响，在这种攻击中，训练样本被植入基于触发器的有害内容（https://huggingface.co/papers?q=trigger-based%20harmful%20content）。此外，现有防御措施在经过后门攻击模式的广泛测试后被证明效果不佳。为了更好地对抗后门攻击，我们探索了利用大语言模型重写作为对抗数据投毒（https://huggingface.co/papers?q=data%20poisoning）的主动防御手段。首先，我们从理论上证明，当大语言模型重写使用开放式的良性样本（即开放式良性重写（https://huggingface.co/papers?q=open-book%20benign%20rewriting），OBBR）时，重写输出为良性的概率严格大于封闭式重写（https://huggingface.co/papers?q=closed-book%20rewriting）。因此，OBBR通过将训练样本投射到良性提示（https://huggingface.co/papers?q=benign%20prompts）空间来中和有害内容。随后我们证明，与之前的防御方法相比，OBBR能有效缓解大量现有后门攻击：在五种已知后门攻击和四种广泛使用的大语言模型上，与最先进的后门攻击防御方法相比，OBBR将安全性平均提升了51%；与封闭式重写（https://huggingface.co/papers?q=closed-book%20rewriting）方法相比提升了25.7%。最后，我们证明OBBR相对于其他后门攻击防御方法在计算上高效，不会降低微调后模型在自然语言任务上的性能，并且能够抵御非基于触发器的数据投毒（https://huggingface.co/papers?q=data%20poisoning）攻击。

查看 arXiv 页面 (https://arxiv.org/abs/2605.19147) 查看 PDF (https://arxiv.org/pdf/2605.19147) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.19147)

在您的智能体中获取此论文：

hf papers read 2605.19147

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型引用此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

引用此论文的数据集0

没有数据集引用此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

引用此论文的 Spaces0

没有 Space 引用此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.19147 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

请将此论文添加到一个收藏集（https://huggingface.co/new-collection）中以从此页面链接。

友善重写：通过重写实现良性投影以防御LLM数据投毒攻击

论文页面 - 善良重写：通过良性重写抵御大语言模型数据投毒攻击

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

通过轨迹重写保护语言模型免受未授权蒸馏

内存增强型LLM智能体中的状态污染

Chainwash：扩散语言模型水印的多步重写攻击

隐藏、重建与越狱：利用多模态大语言模型中的重建-隐藏权衡

更难防御：面向中文的通过隐式增强与混淆重写实现的毒性攻击

提交意见反馈