无损抗蒸馏采样

arXiv cs.LG 2026/05/20 04:00 论文

摘要

本文提出无损抗蒸馏采样（LADS），一种新颖的采样方案，通过关联不同账户的响应来对抗多账户蒸馏，同时为单个良性用户保留精确的统计保真度。理论分析和实验表明，LADS会降低蒸馏学生在图像、数学和代码生成上的性能。

arXiv:2605.18829v1 公告类型：新摘要：前沿商业生成模型面临来自蒸馏的日益严重的威胁，即蒸馏者以极低成本收集生成的响应并训练自己的竞争模型。现有防御要么依赖修改模型输出，从而牺牲良性用户的响应质量，要么依赖行为检测方法，而这些方法可以通过跨多个账户分布查询轻易规避。在这项工作中，我们提出无损抗蒸馏采样（LADS），一种专门设计用于对抗多账户蒸馏同时为良性用户维持无损体验的新型采样方案。具体而言，LADS从由查询的语义内容以及用户查询模型的次数决定的私有种子中衍生出每次生成的随机性。通过构造，每个良性用户在每次访问时都会收到从原始模型中独立采样的响应，因此不会经历任何失真。相反，对于蒸馏者，当不同账户的查询落在同一语义桶中时，它们共享潜在随机性。结果，收集的数据变得相关，可能降低样本多样性并损害泛化能力。利用一致收敛理论，我们证明相对于标准独立同分布采样，LADS在无条件生成和条件生成设置中均可证明地降低蒸馏者泛化差距的收敛速率。在图像生成、数学推理和代码生成上的实验证实，LADS在保留单个用户精确统计保真度的同时，显著降低蒸馏学生的性能。

查看原文

无损抗蒸馏采样

相似文章

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

EchoDistill: 对齐噪声到干净的自蒸馏用于鲁棒音频大语言模型

AsyncOPD：在策略蒸馏可以有多陈旧？

通过动态Token选择实现分布对齐自蒸馏的鲁棒推理

提交意见反馈