通过轨迹重写保护语言模型免受未授权蒸馏

Hugging Face Daily Papers 2026/04/16 00:00 论文

摘要

研究者提出轨迹重写方法，可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏，并嵌入可检测的水印。

知识蒸馏是将大语言模型能力迁移到更小、更高效学生模型的常用技术。然而，未授权的知识蒸馏无偿占用了开发前沿模型所投入的巨大精力与成本。我们研究如何修改教师模型生成的推理轨迹，以实现两个阻止未授权蒸馏的目标：(1) 反蒸馏——降低查询响应对训练的价值；(2) API 水印——在学生模型中嵌入可验证的签名。我们引入多种动态重写教师推理输出的方法，在保持答案正确性和语义连贯的同时达成上述目标。其中两种方法利用大语言模型自身的重写能力，其余则采用基于梯度的技术。实验表明，一种简单的基于指令的重写方案即可产生显著的反蒸馏效果，甚至能提升教师模型表现。此外，该重写方法还能嵌入几乎零误报、可可靠检测的水印。代码已开源：https://github.com/xhOwenMa/trace-rewriting。

查看原文

查看缓存全文

缓存时间: 2026/04/21 15:38

论文页面 - 通过轨迹重写保护语言模型免受未授权蒸馏

来源：https://huggingface.co/papers/2602.15143

摘要

我们提出了一种修改教师模型生成推理轨迹的方法，可在保持答案正确性的同时防止未授权知识蒸馏，并支持可检测的水印。

知识蒸馏是将大模型能力迁移到更小、更高效学生模型的常用技术。然而，未授权知识蒸馏无偿占用了开发前沿模型所投入的巨大成本与精力。我们研究如何修改教师生成的推理轨迹，以实现两大目标，从而遏制未授权蒸馏：

反蒸馏：降低查询响应对训练的价值；
API 水印：在学生模型中嵌入可验证的签名。

我们引入多种动态重写教师推理输出的方法，在保持答案正确性与语义连贯性的同时达成上述目标。其中两种方法利用大模型的重写能力，其余采用基于梯度的技术。实验表明，简单的基于指令的重写即可产生显著的反蒸馏效果，且教师模型性能不降反升。此外，该重写方法还能嵌入几乎零误报、可可靠检测的水印。代码已开源：https://github.com/xhOwenMa/trace-rewriting。

查看 arXiv 页面（https://arxiv.org/abs/2602.15143）
查看 PDF（https://arxiv.org/pdf/2602.15143）
GitHub（https://github.com/xhOwenMa/trace-rewriting）
添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2602.15143）

在智能体中获取本文：

hf papers read 2602.15143

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型引用

在模型 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集引用

在数据集 README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 引用

在 Space README.md 中引用 arxiv.org/abs/2602.15143 即可在此页面显示链接。

包含该论文的收藏 0

暂无收藏包含

创建收藏并添加该论文，即可在此页面显示链接。

通过轨迹重写保护语言模型免受未授权蒸馏

论文页面 - 通过轨迹重写保护语言模型免受未授权蒸馏

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏 0

相似文章

通过追踪重写保护语言模型免受未授权蒸馏

Chainwash：扩散语言模型水印的多步重写攻击

可解释的推理轨迹，出人意料的结果：调查基于推理轨迹的知识蒸馏中的不匹配

Self-Verified Distillation：你的语言模型实则就是它自己的合成数据流水线

友善重写：通过重写实现良性投影以防御LLM数据投毒攻击

提交意见反馈