无损抗蒸馏采样
摘要
本文提出无损抗蒸馏采样(LADS),一种新颖的采样方案,通过关联不同账户的响应来对抗多账户蒸馏,同时为单个良性用户保留精确的统计保真度。理论分析和实验表明,LADS会降低蒸馏学生在图像、数学和代码生成上的性能。
arXiv:2605.18829v1 公告类型:新
摘要:前沿商业生成模型面临来自蒸馏的日益严重的威胁,即蒸馏者以极低成本收集生成的响应并训练自己的竞争模型。现有防御要么依赖修改模型输出,从而牺牲良性用户的响应质量,要么依赖行为检测方法,而这些方法可以通过跨多个账户分布查询轻易规避。在这项工作中,我们提出无损抗蒸馏采样(LADS),一种专门设计用于对抗多账户蒸馏同时为良性用户维持无损体验的新型采样方案。具体而言,LADS从由查询的语义内容以及用户查询模型的次数决定的私有种子中衍生出每次生成的随机性。通过构造,每个良性用户在每次访问时都会收到从原始模型中独立采样的响应,因此不会经历任何失真。相反,对于蒸馏者,当不同账户的查询落在同一语义桶中时,它们共享潜在随机性。结果,收集的数据变得相关,可能降低样本多样性并损害泛化能力。利用一致收敛理论,我们证明相对于标准独立同分布采样,LADS在无条件生成和条件生成设置中均可证明地降低蒸馏者泛化差距的收敛速率。在图像生成、数学推理和代码生成上的实验证实,LADS在保留单个用户精确统计保真度的同时,显著降低蒸馏学生的性能。
相似文章
自蒸馏作为大语言模型的性能恢复机制:对抗压缩和灾难性遗忘
本文介绍了自蒸馏微调(SDFT)作为大语言模型性能恢复机制,用于解决灾难性遗忘、量化和剪枝导致的性能下降问题。作者利用中心核对齐(CKA)提供了理论证明,表明自蒸馏能够使学生模型的高维流形与教师模型的最优结构对齐,从而有效恢复丧失的能力。
使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性
本文提出了一种分布对齐对抗性蒸馏(DisAAD)方法,该方法使用一个轻量级代理模型,仅以原始模型1%的规模来估计黑盒大语言模型的不确定性,实现了无需内部参数或多次采样的可靠量化。
EchoDistill: 对齐噪声到干净的自蒸馏用于鲁棒音频大语言模型
EchoDistill 是一种基于对齐的噪声到干净的自蒸馏框架,通过使用冻结的干净音频教师模型,利用组相对策略优化 (GRPO) 指导学生模型,从而提高音频大语言模型 (ALLMs) 在现实噪声下的鲁棒性。实验表明,在强噪声下,该方法显著提升了语义可靠性和任务性能,且无需额外推理成本。
AsyncOPD:在策略蒸馏可以有多陈旧?
本文提出 AsyncOPD,一种完全异步的在策略蒸馏流程,用于大语言模型,系统研究了陈旧策略数据的影响,并提出了估计器设计,使训练吞吐量提升 1.6-3.8 倍,同时保持相当的准确率。
通过动态Token选择实现分布对齐自蒸馏的鲁棒推理
提出了分布对齐自蒸馏(DASD),该方法在自蒸馏过程中动态过滤Token,以保留有益的逻辑修正,同时抑制分布不对齐的风格噪声,从而在数学、代码和常识推理基准上提升鲁棒推理能力。