The Distillation Game: Adaptive Attacks & Efficient Defenses

Hugging Face Daily Papers 论文

摘要

本文研究了模型输出可能引发模仿的蒸馏攻击,提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法,结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。

蒸馏攻击为模型提供商带来了部署权衡:使模型更有用的相同输出也使其更容易被模仿。我们通过一个效用受限的教师模型与一个自适应学生模型之间的极小极大博弈来研究这种权衡。我们的框架产生了易处理的一侧响应规则:学生模型重新加权高价值样本的自适应评估规则,以及抑制对蒸馏最有用的输出的教师侧防御模板。从示例价值的廉价代理出发,我们推导出Product-of-Experts(PoE),这是一种简单的仅前向传递防御方法,在生成过程中将教师模型与代理学生模型相结合。经验表明,自适应评估揭示了一个巨大的被动-自适应差距:在最先进的防御下,自适应学生模型在GSM8K和MATH上恢复的能力远超被动评估所显示的水平。在这种更强的评估下,昂贵防御与PoE之间明显的鲁棒性差距显著缩小,而PoE仍然便宜得多,并保留了更高质量的推理轨迹。总体而言,我们的结果表明,强蒸馏仍然难以阻止,并且防蒸馏的进展应针对自适应学生模型而非被动学生模型进行评估。我们的代码可在以下网址获取:https://github.com/ysfalh/distillation-game。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:44

论文页面 - 蒸馏游戏:自适应攻击与高效防御

来源:https://huggingface.co/papers/2605.22737 发表于5月29日

·

由https://huggingface.co/ysfalh提交

A (https://huggingface.co/ysfalh)于6月8日

摘要

蒸馏攻击为模型提供者带来了权衡:有用的输出既能使模型更实用,也会使其更易被模仿。我们通过一个极小极大博弈框架来研究这一权衡,该框架在效用受限的教师与自适应学生之间展开博弈。我们的框架产生了易于处理的一侧响应规则:一个自适应评估规则(学生在此规则下对高价值样本重新加权),以及一个教师侧的防御模板(抑制对蒸馏最有用的输出)。基于一种廉价的样本价值代理,我们推导出产品专家(PoE)——一种仅需前向传播的简单防御,在生成过程中将教师与代理学生相结合。实验表明,自适应评估揭示了一个巨大的被动-自适应差距:在现有最优防御上,自适应学生恢复的能力远超被动评估在GSM8K和MATH上所显示的水平。在这种更强的评估下,昂贵防御与PoE之间的表观鲁棒性差距显著缩小,而PoE仍保持显著更低的成本并保留更高质量的推理轨迹。总体而言,我们的结果表明,强蒸馏难以阻止,且反蒸馏的进展应基于自适应学生而非被动学生进行评判。我们的代码已开源:https://github.com/ysfalh/distillation-game。

查看arXiv页面 (https://arxiv.org/abs/2605.22737)查看PDF (https://arxiv.org/pdf/2605.22737)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22737)

引用此论文的模型0

暂无链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

引用此论文的数据集0

暂无链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

引用此论文的 Spaces0

暂无链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。

包含此论文的收藏0

暂无包含此论文的收藏

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

揭秘同策略蒸馏:其益处、危害及原因

Hugging Face Daily Papers

本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。

用于LLM推理的自适应教师暴露自蒸馏方法

Hugging Face Daily Papers

自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。