两者兼顾：针对大语言模型上下文完整性的互补自蒸馏方法

arXiv cs.LG 2026/05/21 04:00 论文

摘要

提出互补自蒸馏（SelfCI）方法，通过平衡效用与隐私来提升大语言模型的上下文完整性。在CI-RL和PrivacyLens基准测试上跨多个模型进行了评估。

arXiv:2605.20258v1 公告类型：新摘要：上下文完整性（CI）将隐私定义为不仅限于隐藏信息，而是根据给定情境的规范来管理信息流动。随着大语言模型越来越多地被部署为处理敏感工作流的个人代理，遵循CI变得至关重要。然而，即使是前沿模型在披露决策方面仍然不可靠，现有的缓解策略往往损害底层任务性能。为了克服这种隐私-效用权衡，我们提出了SELFCI，一种互补自蒸馏框架，将信息抑制与任务解决解耦。SELFCI联合优化两个独立的逆向KL散度，分别来自反馈产生的不同教师分布：一个鼓励保留任务相关信息以保持效用，另一个则强制实现最小且适当的披露。这种互补公式引出了专家乘积（PoE）目标，使策略与能力和隐私要求的交集对齐。实证评估表明，SELFCI无需依赖昂贵的外部监督，始终优于竞争基线，如在线强化学习算法（例如GRPO）。这些趋势进一步扩展到涉及代理工作流和累积私有上下文的域外设置，表明SELFCI为CI对齐提供了一条实用路径。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:21

# 二重奏：面向LLM上下文完整性的互补性自蒸馏  
来源：https://arxiv.org/html/2605.20258  

### 4.1 实验设置  

#### 数据集与指标。  
作为主基准，CI-RL [22 (https://arxiv.org/html/2605.20258#bib.bib6)] 通过带有显式披露规范的合成助手-任务实例，将隐私-效用权衡隔离开来。在保留的测试集上，我们评估保留任务相关属性（Utility）、抑制不必要私有属性（Integrity）以及同时满足两个条件（Complete）的效果。所有评估和分析中，每个提示采样五个响应，并报告每个指标的均值。  

对于域外评估，我们使用 PrivacyLens [35 (https://arxiv.org/html/2605.20258#bib.bib5)]，该基准通过基于隐私敏感场景的工具使用智能体轨迹来评估隐私规范意识。任务完成度（Helpful）由 GPT-5-mini [38 (https://arxiv.org/html/2605.20258#bib.bib40)] 作为 LLM 评判打分，范围为 [0,3] [0,3]。隐私通过最终动作中敏感信息的泄漏率（LR）及其调整后变体（ALR）来评估，ALR 仅衡量有帮助动作中的泄漏。更多细节（包括提示模板）见附录 C.1 (https://arxiv.org/html/2605.20258#A3.SS1)。  

#### 基线方法。  
我们将 SelfCI 与三个基线进行比较，包括两种有竞争力的学习方法。Initial 模型作为零样本参考，反映策略在 CI 特定适应前的行为。作为代表性的在线学习基线，CI-RL [22 (https://arxiv.org/html/2605.20258#bib.bib6)] 使用 GRPO [36 (https://arxiv.org/html/2605.20258#bib.bib45)] 优化策略，奖励为 |ATpresent|/|AT| − |DTpresent|/|DT|，其中 ATpresent ⊆ AT 和 DTpresent ⊆ DT 分别表示响应中存在允许属性和禁止属性的集合。  

相比之下，ContextDistill 是一种基于上下文蒸馏 [39 (https://arxiv.org/html/2605.20258#bib.bib38)] 的离线 SFT 基线。不像我们的互补性自教师目标，它训练时使用由较大教师模型生成的响应，教师模型的条件是拼接聚合反馈 f̃allow 和 f̃disallow 形成的单一上下文。  

#### 实现细节。  
我们将 SelfCI 应用于多种指令微调骨干模型——Qwen2.5-7B-Instruct [49 (https://arxiv.org/html/2605.20258#bib.bib33)]、Llama-3.1-8B-Instruct [13 (https://arxiv.org/html/2605.20258#bib.bib34)]、Olmo-3-7B-Instruct [34 (https://arxiv.org/html/2605.20258#bib.bib35)] 和 Qwen3-4B-Instruct-2507 [48 (https://arxiv.org/html/2605.20258#bib.bib36)]——以及推理骨干模型——DeepSeek-R1-Distill-Llama-8B [14 (https://arxiv.org/html/2605.20258#bib.bib37)]、Olmo-3-7B-Think [34 (https://arxiv.org/html/2605.20258#bib.bib35)] 和 Qwen3-4B [48 (https://arxiv.org/html/2605.20258#bib.bib36)]。  

所有方法使用 Lan 等人 [22 (https://arxiv.org/html/2605.20258#bib.bib6)] 的 CI-CoT 提示模板（如图 8 (https://arxiv.org/html/2605.20258#A7.F8) 所示），除非基准要求特定提示格式。我们将指令微调骨干的最大输出长度设为 2048 个 token，推理骨干设为 4096 个 token。优化方面，我们使用 AdamW [28 (https://arxiv.org/html/2605.20258#bib.bib49)]，基础学习率为 1×10^{-6}，采用线性调度器并在前 10% 的训练步骤中预热。为在对齐过程中保持预训练能力 [5 (https://arxiv.org/html/2605.20258#bib.bib50)]，我们对所有实验配置中的查询和值投影应用 LoRA [16 (https://arxiv.org/html/2605.20258#bib.bib42)]，秩 r=32，缩放因子 α=64，Dropout [40 (https://arxiv.org/html/2605.20258#bib.bib48)] 为 0.05。所有基于优化的方法在 CI-RL 训练集上训练 30 个 epoch（遵循 Lan 等人 [22 (https://arxiv.org/html/2605.20258#bib.bib6)]）。我们选择在 CI-RL 评估集上取得最高 Complete 分数的检查点。所有实验在单张 NVIDIA H200 GPU 上进行。更多细节见附录 C.2 (https://arxiv.org/html/2605.20258#A3.SS2) 和 C.3 (https://arxiv.org/html/2605.20258#A3.SS3)。  

请参见图注  

图 3：（左）使用 Qwen2.5-7B-Instruct 在 CI-RL 测试集上计算的式 1 中定义的 D_KL 和完整性分数（第 4 节）。（中）CI-RL 测试集上每个 epoch 的 Complete 分数。（右）使用 Qwen3-4B-Instruct 时每个训练步骤的 GPU 挂钟时间。  

### 4.2 主要结果  

#### SelfCI 的优越性。  
如第 4 节所示，SelfCI 在 CI-RL 测试集上持续改善隐私-效用权衡。对于指令微调模型，主要提升在于 Integrity 显著提高。例如，在 Qwen2.5-7B-Instruct 上，SelfCI 将 Integrity 从 35.34 提升到 83.56，Complete 从 23.29 提升到 53.42。重要的是，*这些提升不以牺牲 Utility 为代价*：SelfCI 保持了有竞争力的 Utility，甚至在 Llama-3.1-8B-Instruct 和 Olmo-3-7B-Instruct 上超过了 Initial 模型。  

图 3（左）进一步支持这一优势，显示测得的 D_KL 与 Complete 分数之间存在明显的负相关关系，其中 D_KL（如式 1 定义）表示对禁止属性的敏感性。SelfCI 在所有方法中取得最低的 D_KL 和最高的 Complete 分数。这些结果共同表明，SelfCI 在保持任务完成的同时，提高了对禁止属性的鲁棒性。  

同样的趋势也扩展到推理模型，在这些模型上保持任务性能尤其具有挑战性。SelfCI 在所有推理骨干上取得最优的 Complete 分数，尤其在 Qwen3-4B 上提升显著，Integrity 从 32.88 提升到 82.19，Complete 从 26.03 提升到 57.26。它在 DeepSeek-R1-Distill-Llama-8B 上也取得了最高的 Utility，表明 CI 对齐可以在不削弱任务求解能力的情况下改善隐私行为。  

#### 在线强化学习的局限性。  
SelfCI 比在线 RL 基线更有效且样本效率更高。如图 3（中）所示，它比 CI-RL 更早达到高 Complete 分数：仅用 3 个 epoch 就超过 40%，而 CI-RL 需要 15 个 epoch。这反映了基于奖励优化的一个关键挑战：模型必须从粗粒度的奖励信号中学习复杂的、依赖于上下文的规范。相比之下，SelfCI 通过 KL 目标利用密集的 logit 级监督，并通过丰富反馈构建的教师实现高效优化。图 3（右）的挂钟时间比较进一步显示，SelfCI 将每个步骤的 GPU 时间减少了近一半，因为它每个提示仅需一次 rollout，而 CI-RL 需要 16 次。  

#### 外部教师蒸馏的局限性。  
ContextDistill 在 CI-RL 测试集上的泛化效果不佳，表明外部教师监督不适合上下文相关的 CI 规范。在 Qwen3-4B-Instruct 上，它提高了 Integrity，但 Complete 分数仍低于 CI-RL（40 vs. 45.21），落后 SelfCI 15.34 个百分点。这种模式与曝光偏差一致：学生模型在教师生成的轨迹上训练，而这些轨迹与其自身生成的结果不同 [2 (https://arxiv.org/html/2605.20258#bib.bib51)]。相比之下，SelfCI 使用在策略生成，并通过不同条件下相同模型构建教师，减少了分布不匹配并改善了测试时的 CI 对齐。  

#### 在智能体任务上的泛化能力。  
第 4 节进一步报告了 PrivacyLens 上的域外结果。在 Qwen3-4B-Instruct 上，SelfCI 实现了最低的泄漏率，将 LR 从 56.59 降低到 47.06，ALR 从 58.14 降低到 48.17，同时取得了最高的 Helpful 分数（2.62）。在 Qwen3-4B 上提升更为显著，SelfCI 将 LR 从 40.97 降低到 32.45，ALR 从 52.23 降低到 42.37，同样取得了最高的 Helpful 分数（1.92）。相比之下，CI-RL 和 ContextDistill 的迁移效果较差。ContextDistill 在 Qwen3-4B-Instruct 上仍保持高 LR（55.98），表明离线蒸馏在完全域外迁移时仍存在曝光偏差。CI-RL 尽管使用在策略生成，但同样表现不佳：在 Qwen3-4B-Instruct 上 LR 仅降至 53.75，在 Qwen3-4B 上降至 37.93。这表明粗粒度的序列级奖励无法产生足够泛化的 CI 行为。  

PrivacyLens 的结果突显了 SelfCI 作为个人智能体强对齐方法的优势，在智能体工作流中实现了*无效用损失的隐私*。  

### 4.3 在复杂度增加下的鲁棒性  

为评估在复杂度增加时的鲁棒性，我们在 CIMemories [30 (https://arxiv.org/html/2605.20258#bib.bib7)] 上评估 SelfCI（详见附录 C.1）。在此基准中，用户属性在连续任务中累积，同一属性在一个上下文中可能恰当，在另一上下文中却不恰当。随着记忆增长，模型必须做出越来越多的上下文相关披露决策，导致固定的抑制规则不充分。图 5 报告了 Violation@5（属性级曾经泄漏率）作为已观察任务数的函数。随着更多属性积累，基线方法显示出累积的隐私失败：Initial 模型和 CI-RL 在 48 个任务后 Violation@5 分别达到约 26% 和 21%，ContextDistill 也稳步上升。相比之下，SelfCI 将 Violation@5 保持在 5% 以下，表明在累积记忆下具有稳定的上下文条件披露边界。  

请参见图注  

图 4：使用 Qwen3-4B-Instruct 测量的、任务逐步累积下 CIMemories 上的违反率。  

图 5：使用 Qwen3-4B-Instruct 对式 1 中的理想 CI 代理进行分析。（左）CI-RL 测试集上目标分布的 Utility 分数。（右）使用式 1 或式 5 训练时每个 epoch 的 Utility 和 Integrity 分数。  

### 4.4 反馈与教师分解的分析  

#### 利用反馈实现理想的 CI 目标。  
虽然式 1 将理想 CI 状态定义为对禁止信息的不变性，但在实践中，直接以仅基于允许属性集合 AT 的条件策略作为参考可能不够明确：移除 DT 并未告知模型 AT 中哪些属性应该使用、为什么它们与任务相关，或者它们在响应中应如何出现。与此一致，图 5（左）显示，仅允许目标产生的 Utility 低于 SelfCI 诱导的 PoE 目标，表明仅对禁止信息的不变性并不能保证任务完整的行为。  

为了直接测试这一点，我们用式 1 优化学生模型，并与使用式 5 训练的 SelfCI 进行比较。如图 5（右）所示，式 1 提高了 Integrity，但导致 Utility 大幅下降，表明仅允许目标提供的效用信号不稳定，并逐渐使模型偏向抑制。相比之下，SelfCI 通过将目标分解为基于反馈的 πallow 和 πdisallow，在提高 Integrity 的同时保持了 Utility。尽管式 1 仍然是理想 CI 目标的有意义代理，但 SelfCI 在式 5 中的基于反馈的分解提供了更实际的优化途径。  

表 2：仅关键词和基于反馈的特权上下文 c 下的结果（式 6）。  

#### 基于反馈的上下文的作用。  
为隔离反馈的作用，我们使用仅列出允许和禁止属性的仅关键词上下文作为对照。虽然仅关键词上下文指定了属性划分，但缺乏任务特定传输规范的理由。如表 2 所示，反馈提高了 Qwen3-4B-Instruct 和 Qwen3-4B 的 Complete 分数，推理模型提升了 12.05 个百分点。这表明，粗粒度的关键词在较长生成过程中会诱导信息量较少的教师，而反馈则为塑造教师分布提供了更丰富的上下文。  

#### 教师分解的效果。  
接下来我们考察两种反馈类型是否应诱导互补的教师，而非合并为单一的教师。作为对照，我们将所有反馈拼接成单一上下文 f̃ = concat(f̃allow, f̃disallow)，并使用单一 KL 散度对合并后的教师进行策略优化。  

表 3：单一教师与分解教师构建的结果，SelfCI。  

如表 3 所示，将反馈分解为互补的教师（πallow 和 πdisallow）在 Qwen3-4B-Instruct 和 Qwen3-4B 上都比单一教师取得了更高的 Complete 分数，分别提高了 3.83 和 3.29 个百分点。这支持了我们的设计：分离的教师引导策略在减少禁止行为的同时保留允许行为，较合并教师具有更好的平衡。

两者兼顾：针对大语言模型上下文完整性的互补自蒸馏方法

相似文章

自蒸馏作为大语言模型的性能恢复机制：对抗压缩和灾难性遗忘

EDGE-OPD：利用证据引导的在线策略蒸馏内化特权上下文

Found in Conversation: LLMs 自我学习以缩小多轮对话差距

ContextGuard：语言模型中上下文学习的结构化自我审计

Self-Verified Distillation：你的语言模型实则就是它自己的合成数据流水线

提交意见反馈