The Distillation Game: Adaptive Attacks & Efficient Defenses
摘要
本文研究了模型输出可能引发模仿的蒸馏攻击,提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法,结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。
查看缓存全文
缓存时间: 2026/06/09 08:44
论文页面 - 蒸馏游戏:自适应攻击与高效防御
来源:https://huggingface.co/papers/2605.22737 发表于5月29日
·
由https://huggingface.co/ysfalh提交
A (https://huggingface.co/ysfalh)于6月8日
摘要
蒸馏攻击为模型提供者带来了权衡:有用的输出既能使模型更实用,也会使其更易被模仿。我们通过一个极小极大博弈框架来研究这一权衡,该框架在效用受限的教师与自适应学生之间展开博弈。我们的框架产生了易于处理的一侧响应规则:一个自适应评估规则(学生在此规则下对高价值样本重新加权),以及一个教师侧的防御模板(抑制对蒸馏最有用的输出)。基于一种廉价的样本价值代理,我们推导出产品专家(PoE)——一种仅需前向传播的简单防御,在生成过程中将教师与代理学生相结合。实验表明,自适应评估揭示了一个巨大的被动-自适应差距:在现有最优防御上,自适应学生恢复的能力远超被动评估在GSM8K和MATH上所显示的水平。在这种更强的评估下,昂贵防御与PoE之间的表观鲁棒性差距显著缩小,而PoE仍保持显著更低的成本并保留更高质量的推理轨迹。总体而言,我们的结果表明,强蒸馏难以阻止,且反蒸馏的进展应基于自适应学生而非被动学生进行评判。我们的代码已开源:https://github.com/ysfalh/distillation-game。
查看arXiv页面 (https://arxiv.org/abs/2605.22737)查看PDF (https://arxiv.org/pdf/2605.22737)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.22737)
引用此论文的模型0
暂无链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。
引用此论文的数据集0
暂无链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。
引用此论文的 Spaces0
暂无链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.22737 即可从此页面建立链接。
包含此论文的收藏0
暂无包含此论文的收藏
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
揭秘同策略蒸馏:其益处、危害及原因
本文介绍了一种无需训练的框架,用于分析推理模型在逐token级别上的蒸馏信号。研究揭示,蒸馏引导在错误推理路径上更为有效,且其效果取决于学生模型的能力及任务上下文。
用于LLM推理的自适应教师暴露自蒸馏方法
自适应教师暴露自蒸馏(ATESD)通过可学习的策略控制器和折扣学习进度奖励动态调整教师向学生展示参考推理的比例,从而提升LLM推理能力。在数学基准上的实验表明,该方法相较于现有自蒸馏和强化学习基线均取得了一致改进。
@zhaisf: 这是 @geoffreyhinton 提出的蒸馏方法的一些神奇结果,当我第一次看到它们时,真的让我震惊,而且……
本文讨论了模型蒸馏对训练分布的惊人鲁棒性,即使与目标分布的重叠很小,以及其对在线/离线策略蒸馏的影响。
在线策略蒸馏的多重面貌:陷阱、机制与解决方案
本文对大语言模型的在线策略蒸馏进行了全面的实证研究,识别了分布不匹配和优化不稳定等故障机制,并提出了诸如停止梯度目标和针对 RLVR 改进的教师模型等解决方案。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。