The Distillation Game: Adaptive Attacks & Efficient Defenses

Hugging Face Daily Papers 2026/05/29 00:00 论文

摘要

本文研究了模型输出可能引发模仿的蒸馏攻击，提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法，结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。

蒸馏攻击为模型提供商带来了部署权衡：使模型更有用的相同输出也使其更容易被模仿。我们通过一个效用受限的教师模型与一个自适应学生模型之间的极小极大博弈来研究这种权衡。我们的框架产生了易处理的一侧响应规则：学生模型重新加权高价值样本的自适应评估规则，以及抑制对蒸馏最有用的输出的教师侧防御模板。从示例价值的廉价代理出发，我们推导出Product-of-Experts（PoE），这是一种简单的仅前向传递防御方法，在生成过程中将教师模型与代理学生模型相结合。经验表明，自适应评估揭示了一个巨大的被动-自适应差距：在最先进的防御下，自适应学生模型在GSM8K和MATH上恢复的能力远超被动评估所显示的水平。在这种更强的评估下，昂贵防御与PoE之间明显的鲁棒性差距显著缩小，而PoE仍然便宜得多，并保留了更高质量的推理轨迹。总体而言，我们的结果表明，强蒸馏仍然难以阻止，并且防蒸馏的进展应针对自适应学生模型而非被动学生模型进行评估。我们的代码可在以下网址获取：https://github.com/ysfalh/distillation-game。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - 蒸馏游戏：自适应攻击与高效防御

来源：https://huggingface.co/papers/2605.22737 发表于5月29日

由https://huggingface.co/ysfalh提交

A (https://huggingface.co/ysfalh)于6月8日

摘要

蒸馏攻击为模型提供者带来了权衡：有用的输出既能使模型更实用，也会使其更易被模仿。我们通过一个极小极大博弈框架来研究这一权衡，该框架在效用受限的教师与自适应学生之间展开博弈。我们的框架产生了易于处理的一侧响应规则：一个自适应评估规则（学生在此规则下对高价值样本重新加权），以及一个教师侧的防御模板（抑制对蒸馏最有用的输出）。基于一种廉价的样本价值代理，我们推导出产品专家（PoE）——一种仅需前向传播的简单防御，在生成过程中将教师与代理学生相结合。实验表明，自适应评估揭示了一个巨大的被动-自适应差距：在现有最优防御上，自适应学生恢复的能力远超被动评估在GSM8K和MATH上所显示的水平。在这种更强的评估下，昂贵防御与PoE之间的表观鲁棒性差距显著缩小，而PoE仍保持显著更低的成本并保留更高质量的推理轨迹。总体而言，我们的结果表明，强蒸馏难以阻止，且反蒸馏的进展应基于自适应学生而非被动学生进行评判。我们的代码已开源：https://github.com/ysfalh/distillation-game。

查看arXiv页面 (https://arxiv.org/abs/2605.22737)查看PDF (https://arxiv.org/pdf/2605.22737)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22737)

引用此论文的模型0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

引用此论文的数据集0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

引用此论文的 Spaces0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

包含此论文的收藏0

暂无包含此论文的收藏

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面建立链接。

The Distillation Game: Adaptive Attacks & Efficient Defenses

论文页面 - 蒸馏游戏：自适应攻击与高效防御

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

揭秘同策略蒸馏：其益处、危害及原因

用于LLM推理的自适应教师暴露自蒸馏方法

@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果，当我第一次看到它们时，真的让我震惊，而且……

在线策略蒸馏的多重面貌：陷阱、机制与解决方案

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

提交意见反馈