通过轨迹重写保护语言模型免受未授权蒸馏
摘要
研究者提出轨迹重写方法,可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏,并嵌入可检测的水印。
查看缓存全文
缓存时间: 2026/04/21 15:38
论文页面 - 通过轨迹重写保护语言模型免受未授权蒸馏
来源:https://huggingface.co/papers/2602.15143
摘要
我们提出了一种修改教师模型生成推理轨迹的方法,可在保持答案正确性的同时防止未授权知识蒸馏,并支持可检测的水印。
知识蒸馏是将大模型能力迁移到更小、更高效学生模型的常用技术。然而,未授权知识蒸馏无偿占用了开发前沿模型所投入的巨大成本与精力。我们研究如何修改教师生成的推理轨迹,以实现两大目标,从而遏制未授权蒸馏:
我们引入多种动态重写教师推理输出的方法,在保持答案正确性与语义连贯性的同时达成上述目标。其中两种方法利用大模型的重写能力,其余采用基于梯度的技术。实验表明,简单的基于指令的重写即可产生显著的反蒸馏效果,且教师模型性能不降反升。此外,该重写方法还能嵌入几乎零误报、可可靠检测的水印。代码已开源:https://github.com/xhOwenMa/trace-rewriting。
查看 arXiv 页面(https://arxiv.org/abs/2602.15143)
查看 PDF(https://arxiv.org/pdf/2602.15143)
GitHub(https://github.com/xhOwenMa/trace-rewriting)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2602.15143)
在智能体中获取本文:
hf papers read 2602.15143
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型引用
在模型 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集引用
在数据集 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 引用
在 Space README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。
包含该论文的收藏 0
暂无收藏包含
创建收藏并添加该论文,即可在此页面显示链接。
相似文章
通过追踪重写保护语言模型免受未授权蒸馏
本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。
Chainwash:扩散语言模型水印的多步重写攻击
本研究论文介绍了Chainwash,一种多步重写攻击,能够有效删除扩散语言模型(LLaDA-8B-Instruct)输出中的统计水印,经过五次链式重写后,检测率从87.9%降至4.86%。
可解释的推理轨迹,出人意料的结果:调查基于推理轨迹的知识蒸馏中的不匹配
本文研究了LLM中基于推理轨迹的知识蒸馏中的关键不匹配问题,揭示了语义正确的思维链推理轨迹与最终答案正确性没有可靠相关性,以及为优化模型性能而优化的推理轨迹往往对终端用户的可解释性最差。
Self-Verified Distillation:你的语言模型实则就是它自己的合成数据流水线
提出了Self-Verified Distillation方法,该方法让LLM从无标注的种子问题中生成候选解决方案,并通过基于提示的自我验证进行筛选,然后在过滤后的数据集上进行训练,从而在Qwen3模型的数学、科学和编程基准测试上取得了显著提升。
友善重写:通过重写实现良性投影以防御LLM数据投毒攻击
本文提出开放式良性重写(OBBR)作为针对大语言模型后门攻击的主动防御方法,通过将有害内容投影到良性提示来中和风险,相较于最先进的防御方法,安全性提升51%。