黑盒LLM蒸馏的有界行为不可区分性

arXiv cs.LG 2026/06/01 04:00 论文

摘要

本文提出有界行为不可区分性，一种超越语义相似性的黑盒LLM蒸馏评估形式化框架。在Qwen和Llama模型上的实验表明，蒸馏降低了但并未消除对抗性可区分性，凸显了类别感知评估的必要性。

arXiv:2605.30448v1 公告类型：新摘要：黑盒LLM蒸馏通常被评估为一个输出匹配问题：当学生的响应在语义上与教师相似或任务一致时，即认为学生成功。然而，输出相似性并不意味着学生在行为上与其模仿的模型不可区分。我们引入了有界行为不可区分性，形式化为在显式提示分布上的$(\epsilon,q,t,\mathbb{A})$-行为不可区分性，其中$\epsilon$约束区分优势，$q$约束预言机查询次数，$t$约束计算量，$\mathbb{A}$表示对手类别。我们在Qwen和Llama师生对上使用受控的$5,000$提示行为探测工具集实例化了这一概念。对于每个系列，我们比较教师模型与基础学生模型以及LoRA蒸馏学生模型，衡量蒸馏是否降低了可区分性而不仅仅是提高了相似性。LoRA将Qwen的语义相似度从$0.788$提升至$0.862$，将Llama的从$0.814$提升至$0.874$。然而，对抗性评估揭示了剩余的行为差异：学习到的判别器仍保持非零优势，成对类别分析显示伪影集中在风格/格式、鲁棒性和领域技术提示中。成对教师识别对抗器证实了这一趋势。使用不同家族的Llama判断器和A/B交换一致性过滤，Qwen的区分优势从基础学生的$0.158$降至LoRA蒸馏后的$0.081$。查询预算实验表明，基于分歧的获取策略并不总是优于分层随机抽样，表明覆盖率和多样性仍然是强基线。我们的结果表明语义保真度有用但不充分：黑盒LLM蒸馏需要有界的、对抗性的和类别感知的评估。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:24

# 黑盒LLM蒸馏中的有界行为不可区分性
来源：https://arxiv.org/html/2605.30448
###### 摘要

黑盒LLM蒸馏通常被评估为一个输出匹配问题：当学生模型的响应与教师模型的响应在语义上相似或任务一致时，学生模型即被视为成功。然而，输出相似性并不意味着学生模型与其模仿的模型在行为上不可区分。我们引入了**有界行为不可区分性**，形式化为在显式提示分布上的\(ε,q,t,\mathbb{A}\)-行为不可区分性，其中ε限定了区分优势，q限定了查询预算，t限定了计算预算，而\(\mathbb{A}\)表示对手类别。

我们在Qwen和Llama教师-学生模型对上实例化这一概念，使用一个受控的5,000提示行为探测套件。对于每个模型族，我们将教师模型与基础学生模型以及LoRA蒸馏学生模型进行比较，测量蒸馏是否降低了可区分性，而不仅仅是提高了相似性。LoRA将Qwen的语义相似度从0.788提升至0.862，将Llama的语义相似度从0.814提升至0.874。然而，对抗性评估揭示了剩余的行为差异：学习得到的判别器仍保持非零优势，成对类别分析显示伪影集中在风格/格式、鲁棒性和领域技术提示中。一个成对的教师识别对手证实了这一趋势。使用不同族的Llama评判器以及A/B交换一致性过滤后，Qwen的区分优势从基础学生模型的0.158下降到LoRA蒸馏后的0.081。查询预算实验表明，分歧引导的采集并不始终优于分层随机采样，表明覆盖率和多样性依然是强大的基线。我们的结果表明语义保真度有用但不足：黑盒LLM蒸馏需要有界、对抗性和类别感知的评估。

## 1 引言

大语言模型（LLMs）越来越多地通过黑盒API访问：用户提交提示并观察生成的响应，而模型权重、梯度、训练数据和内部激活仍然隐藏。在许多情况下，即使是词级别概率信息也无法获取或仅部分公开[29, 27, 13]。这种接口产生了两种密切相关的场景。在良性场景中，组织可能将较大模型蒸馏到较小的学生模型中，以减少延迟、降低推理成本、实现设备端部署或将行为适应特定领域。在对抗性场景中，相同的提示-响应接口可用于模型提取，外部方训练替代模型以模仿已部署的教师模型。在这两种情况下，核心问题相同：学生模型的可观察行为与教师模型有多接近？

黑盒LLM蒸馏通常被评估为一个输出匹配问题：当学生模型的响应与教师模型的响应在语义上相似、任务一致或词汇上接近时，学生模型即被视为成功。这些指标很有用，但它们不能回答一个更具操作性的问题：

> *对手能否判断一个响应是由教师模型还是蒸馏学生模型生成的？*

这种区别之所以重要，是因为输出相似性可能掩盖行为差异。一个医疗助手可能保留主要答案，但省略警告性语言；一个编程助手可能复现算法，同时暴露出系统性的格式伪影；一个企业聊天机器人可能在事实内容上匹配，但在拒绝行为、隐私警告或指令冲突解决上存在差异。在这种情况下，语义相似性可能夸大行为迁移的程度。

我们为黑盒LLM蒸馏引入了**有界行为不可区分性**。如果指定对手类\(\mathbb{A}\)中的任何对手，在查询预算q和计算预算t下，能够以大于ε的优势（相对于显式提示分布）区分教师输出和学生输出，则称学生S与教师T是\(ε,q,t,\mathbb{A}\)-行为不可区分的。这使得不可区分性成为一个有界的经验性主张，而非模型的绝对属性：行为迁移是通过有界对手的剩余优势来衡量的，而不是仅通过输出相似性。

这一视角产生了一种基于经验区分优势的评估方法论。我们不是依赖单一相似性指标，而是使用互补的对抗性和行为测试来评估教师-学生模型对：学习得到的判别器、语义相似性、类别感知探测、策略级别一致性和成对教师识别评判器。每个测试捕捉不同的残余信号。仅基于响应的判别器可能检测到风格或长度伪影；提示-响应判别器测试响应在上下文中是否像教师；策略级别评估器关注安全相关行为；成对评判器则询问，给定同一提示的两个响应，是否能识别出教师生成的输出。

我们在Qwen[18]和Llama[16]教师-学生模型对上实例化这种方法。对于每个模型族，我们将教师模型与原始基础学生模型以及一个在教师生成的黑盒响应上使用低秩自适应[7]（LoRA）训练得到的LoRA蒸馏学生模型进行比较。我们受控的5,000提示行为探测套件涵盖通用问答、推理、编程、摘要、风格和格式控制、模糊提示、安全边界提示、指令冲突、领域技术问题和鲁棒性扰动。该套件并非旨在模拟自然部署分布；相反，它提供了一个受控的探测分布，用于测量行为模仿在何处成功，以及可区分的伪影在何处残留。

最近的研究警告说，不可区分性类型的测量应在指定的威胁模型内解释，而不是被视为通用保证[13]。我们的结果支持这种有界观点：LoRA蒸馏提高了Qwen和Llama的语义相似性，学习得到的判别器在分离教师输出和学生输出方面变得不那么有效，但剩余的可区分性依然存在。

在使用不同族的Llama评判器并采用A/B交换一致性过滤的成对教师识别实验中，Qwen的区分优势从基础学生模型的0.158下降到LoRA蒸馏后的0.081。这表明蒸馏使教师识别变得更难，但并非不可能。类别分析，特别是在成对评判器下，显示残余伪影在风格/格式、鲁棒性扰动和领域技术提示中最明显。最后，查询预算实验表明，分歧引导的采集并不始终优于分层随机采样，表明覆盖率和多样性对于行为蒸馏而言仍是强大的基线。图1总结了所提出的流程。

训练 / 蒸馏  
受控行为探测套件  
5,000 提示  
训练提示 \(x_i^{\mathrm{train}}\) (4,000)  
保留提示 \(x_i^{\mathrm{test}}\) (1,000)  
教师模型 \(T\)  
训练教师响应 \(T(x_i^{\mathrm{train}})\)  
蒸馏集合 \(\mathcal{Q}_n = \{(x_i^{\mathrm{train}}, T(x_i^{\mathrm{train}}))\}\)  
基础学生 \(S_{\mathrm{base}}\)  
黑盒 LoRA 蒸馏  
LoRA 蒸馏学生 \(S_{\mathrm{LoRA}}\)  
教师模型 \(T\)  保留教师输出 \(T(x_i^{\mathrm{test}})\)  
候选学生 \(S \in \{S_{\mathrm{base}}, S_{\mathrm{LoRA}}\}\)  保留候选输出 \(S(x_i^{\mathrm{test}})\)  
保留评估：比较 \(T(x_i^{\mathrm{test}})\) 和 \(S(x_i^{\mathrm{test}})\)  
保留评估：经验对手套件和行为度量  
语义相似性 | 学习判别器 | 成对评判器 | 策略级别评估器  
经验区分优势 \(\widehat{\mathrm{Adv}}^{\mathsf{dist}}_{T,S}\)，类别和策略级别一致性  
有界行为不可区分性 \((ε,q,t,\mathbb{A})\) - 相对声明

图1：有界行为不可区分性框架概述。受控提示套件分为训练提示和保留提示。训练提示对教师进行查询以形成黑盒蒸馏集合 \(\mathcal{Q}_n\)，该集合与基础学生 \(S_{\mathrm{base}}\) 一起用于生成 LoRA 蒸馏学生 \(S_{\mathrm{LoRA}}\)。然后使用保留提示生成教师输出和候选学生输出进行评估。得到的测量估计了相对于提示分布、查询预算、计算预算和对手类别的有界经验可区分性。我们总结我们的贡献如下：

- 我们为黑盒LLM蒸馏引入了有界行为不可区分性，形式化为 \(ε,q,t,\mathbb{A}\)-行为不可区分性，其中ε限定相对于显式提示分布、查询预算q、计算预算t和对手类别\(\mathbb{A}\)的区分优势。
- 我们开发了一种基于区分优势的经验评估方法，结合了学习判别器、语义相似性、类别感知探测、策略级别测量和成对教师识别评判器。
- 我们使用受控的5,000提示行为探测套件评估了Qwen和Llama教师-学生模型对，表明LoRA蒸馏提高了语义相似性，并降低了（但未消除）经验可区分性。
- 我们引入了一种带有A/B交换一致性过滤的成对教师识别评估，表明Qwen的区分优势从基础学生模型的0.158下降到LoRA蒸馏后的0.081。
- 我们表明剩余可区分性依赖于类别，并且分歧引导的查询采集并不始终优于分层随机采样，突显了覆盖率和多样性在黑盒行为蒸馏中的重要性。

总体而言，我们的工作认为语义保真度对于评估黑盒LLM蒸馏是必要但不充分的。有界行为不可区分性为衡量多少教师行为已被迁移、哪些对手仍能检测残余伪影以及这些伪影集中在何处提供了形式化和经验性的视角。代码、数据和评估脚本已开源，可在GitHub上获取¹。

## 2 相关工作

#### LLM蒸馏与黑盒模仿：
知识蒸馏将行为从较大的教师模型迁移到较小的学生模型[6]。早期工作侧重于分类器和变换器的模型压缩，包括DistilBERT[22]和TinyBERT[9]。最近的LLM蒸馏方法转向在教师生成的响应上训练学生模型[4, 10]。这种黑盒设置与模型模仿和提取密切相关，其中替代模型通过查询访问目标模型进行训练[26, 8]。我们的工作并非引入新的蒸馏目标；而是研究如何评估蒸馏学生是否仍与其模仿的教师可区分。

#### 超越语义相似性的LLM评估：
蒸馏LLM通常使用任务准确率、词汇重叠、嵌入相似性或响应级别一致性进行评估。句子嵌入模型提供了语义相似性的可扩展估计[19]，但语义接近并不一定意味着行为等价。两个响应可能保留含义，但在格式、拒绝行为、警告性语言或指令遵循风格上存在差异。因此，我们的工作将语义相似性视为行为保真度的一个组成部分，并添加对抗性可区分性测试来衡量教师-学生残余伪影。

#### 对抗性与基于博弈的评估：
不可区分性博弈在密码学中处于核心地位，其中安全性通过对手与挑战者交互的优势来定义[3, 20, 25]。我们将这种推理方式适应于经验性LLM蒸馏。我们的 \((ε,q,t,\mathbb{A})\)-行为不可区分性概念将区分优势相对于提示分布、查询预算、计算预算和对手类别进行了限定。这使得评估主张明确：学生仅在所测试的对手和条件下才是不可区分的。

#### LLM作为评判器与成对评估：
基于LLM的评判器被广泛用于生成模型的评估，尤其是通过成对比较[28, 11, 2]。然而，自动评判器可能表现出位置、冗长、格式或模型族偏见。在我们的设置中，成对评判器并不用作人类偏好代理；它是一个明确的对手，试图识别哪个响应是教师生成的。

#### 策略级别行为与有界保证：
与安全相关的LLM行为通常通过拒绝行为、警告性语言、隐私警告和政策边界合规性进行评估[1, 17]。这些属性不能完全由语义相似性捕捉。我们的框架通过一个评估器 \(\pi(x,y)\) 将文本可区分性与策略级别行为分开。这种有界解释与更广泛的AI安全验证观点一致，其中复杂AI系统的安全和策略声明是针对显式模型、评估器和假设来陈述的，而非视为通用保证[5]。

#### 蒸馏的查询选择：
黑盒蒸馏依赖于使用哪些提示来查询教师。主动学习和核心集方法研究如何在标记或查询预算下选择信息性示例[24, 23, 14, 12]。我们的查询预算实验比较了分层随机采样与分歧引导的采集。结果表明仅凭分歧是不够的：覆

黑盒LLM蒸馏的有界行为不可区分性

相似文章

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

基于参考的LLM蒸馏检测

CBD：通过受控行为差异实现仅API的LLM黑盒遗忘

LLM蒸馏中的桥-园困境：混合硬标签与软标签为何有效

LLM-as-a-Discriminator：当合成表格看起来仍然真实

提交意见反馈