model-defense

标签

Cards List
#model-defense

The Distillation Game: Adaptive Attacks & Efficient Defenses

Hugging Face Daily Papers · 2026-05-29 缓存

本文研究了模型输出可能引发模仿的蒸馏攻击,提出了一个极小极大博弈框架和一种名为Product-of-Experts的仅前向传递防御方法,结果表明自适应学生模型能恢复的能力远超被动评估所显示的水平。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈