model-defense

#model-defense

The Distillation Game: Adaptive Attacks & Efficient Defenses

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

本文研究了模型输出可能引发模仿的蒸馏攻击，提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法，结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。

0 人收藏 0 人点赞