标签
本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。
本文证明深度神经网络对参数的最小符号位翻转具有灾难性脆弱性,提出了DNL和1P-DNL方法,无需数据或优化即可识别关键脆弱参数。这种脆弱性跨越多个领域,包括图像分类、目标检测、实例分割和语言模型,对模型安全具有实际意义。