通过轨迹重写保护语言模型免受未授权蒸馏

Hugging Face Daily Papers 论文

摘要

研究者提出轨迹重写方法,可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏,并嵌入可检测的水印。

知识蒸馏是将大语言模型能力迁移到更小、更高效学生模型的常用技术。然而,未授权的知识蒸馏无偿占用了开发前沿模型所投入的巨大精力与成本。我们研究如何修改教师模型生成的推理轨迹,以实现两个阻止未授权蒸馏的目标:(1) 反蒸馏——降低查询响应对训练的价值;(2) API 水印——在学生模型中嵌入可验证的签名。我们引入多种动态重写教师推理输出的方法,在保持答案正确性和语义连贯的同时达成上述目标。其中两种方法利用大语言模型自身的重写能力,其余则采用基于梯度的技术。实验表明,一种简单的基于指令的重写方案即可产生显著的反蒸馏效果,甚至能提升教师模型表现。此外,该重写方法还能嵌入几乎零误报、可可靠检测的水印。代码已开源:https://github.com/xhOwenMa/trace-rewriting。
查看原文
查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - 通过轨迹重写保护语言模型免受未授权蒸馏

来源:https://huggingface.co/papers/2602.15143

摘要

我们提出了一种修改教师模型生成推理轨迹的方法,可在保持答案正确性的同时防止未授权知识蒸馏,并支持可检测的水印。

知识蒸馏是将大模型能力迁移到更小、更高效学生模型的常用技术。然而,未授权知识蒸馏无偿占用了开发前沿模型所投入的巨大成本与精力。我们研究如何修改教师生成的推理轨迹,以实现两大目标,从而遏制未授权蒸馏:

  1. 反蒸馏:降低查询响应对训练的价值;
  2. API 水印:在学生模型中嵌入可验证的签名。

我们引入多种动态重写教师推理输出的方法,在保持答案正确性与语义连贯性的同时达成上述目标。其中两种方法利用大模型的重写能力,其余采用基于梯度的技术。实验表明,简单的基于指令的重写即可产生显著的反蒸馏效果,且教师模型性能不降反升。此外,该重写方法还能嵌入几乎零误报、可可靠检测的水印。代码已开源:https://github.com/xhOwenMa/trace-rewriting

查看 arXiv 页面(https://arxiv.org/abs/2602.15143
查看 PDF(https://arxiv.org/pdf/2602.15143
GitHub(https://github.com/xhOwenMa/trace-rewriting
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2602.15143

在智能体中获取本文:

hf papers read 2602.15143

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含

创建收藏并添加该论文,即可在此页面显示链接。

相似文章

通过追踪重写保护语言模型免受未授权蒸馏

arXiv cs.CL

本文提出了通过重写推理追踪来保护大型语言模型免受未授权知识蒸馏的方法,该方法在保持正确性的同时降低训练价值,并在蒸馏的学生模型中嵌入可验证的水印。该方案采用基于指令和基于梯度的重写技术来实现反蒸馏效果,同时不影响教师模型性能。