DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL 2026/04/21 04:00 论文

llm-safety alignment harm-mitigation fine-tuning fairness demographic-bias knowledge-distillation

摘要

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

arXiv:2604.16845v1 公告类型：新摘要：经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实层面是准确的（例如基于血缘的疾病发病率）或在特定语境下合理（例如宗教相关的招聘偏好）。这种“身份盲视”会导致错误回答、不必要的拒绝响应，或是默认采用千篇一律的“一视同仁”策略。我们通过对差异感知能力进行分类来研究这一问题：给定一个涉及不同群体的人口统计学问题，任务并非直接给出答案，而是判断正确答案是否需要识别群体间的差异（是），抑或应将各群体视为同等对待（否）。关键在于，为了追求准确率而进行的微调会引发有害漂移现象：随着决策准确率的提升，模型生成的解释会变得越来越有害，这可能是因为详细阐述了有害内容、引入了有问题的假设，或未能标记出基线模型已指出的潜在风险。为缓解这一问题，我们提出了 DART（蒸馏-审计-修复训练）框架。该框架从教师模型中蒸馏标签条件推理过程，针对基线基准审查输出结果以检测有害漂移案例，并通过按严重程度加权微调来修复这些问题案例。在八个基准测试中，DART 将 Llama-3-8B-Instruct 的准确率从 39.0% 提升至 68.8%，在“一视同仁”类提示词上的提升最为显著（从 11.3% 跃升至 72.6%），同时将有害漂移案例减少了 72.6%。该方法还能泛化至涵盖医疗、法律、政策及教育领域的 280 个开放型真实世界查询，使符合差异场景的适当回答率从 39.8% 提升至 77.5%，同时将拒绝率从 34.3% 降至 3.0%。我们的结果表明，当引入明确的检测与修复机制时，准确率与安全性能做到兼顾而非冲突。

查看原文

查看缓存全文

缓存时间: 2026/04/21 07:04

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的危害漂移 来源：https://arxiv.org/html/2604.16845 Ziwen Pan1Zihan Liang111footnotemark:1Jad Kabbara2Ali Emami1 1Emory University2MIT \{ziwen\.pan, zihan\.liang, ali\.emami\}@emory\.edu, jkabbara@mit\.edu

###### Abstract 当前针对安全性进行微调的大型语言模型 \(LLMs\) 往往会回避承认人口统计学差异，即便这种承认在事实上是正确的（例如基于族裔的疾病发病率），或在特定语境下具有合理性（例如宗教相关的招聘偏好）。这种*身份盲视*会导致错误回答、不必要的拒绝，或千篇一律的“平等对待”默认策略。我们通过*差异感知分类*任务来研究这一问题：给定一个涉及不同群体的人口统计学问题，目标并非直接作答，而是判断正确答案是否需要识别群体差异（是），还是群体应被一视同仁（否）。关键在于，单纯追求准确性的微调会触发*危害漂移*：随着决策准确率的提升，模型生成的解释说明反而日益具危害性，具体表现为展开有害内容、引入有问题的前提假设，或未能指出基线模型已识别出的潜在危害。为缓解此问题，我们提出 DART（蒸馏-审计-修复训练，Distill–Audit–Repair Training），该方法从教师模型中蒸馏标签条件化推理，对比基线审计输出中的危害漂移案例，并通过严重程度加权微调修复问题案例。在八个基准测试上，DART 将 Llama-3-8B-Instruct 的准确率从 39\.0% 提升至 68\.8%，其中对要求“平等对待”的提示词提升最为显著（11\.3%→\\rightarrow72\.6%），同时将危害漂移案例减少 72\.6%。该方法还可迁移至医疗、法律、政策及教育领域的 280 个开放式现实世界查询中，使符合差异认知要求的回答比例从 39\.8% 提升至 77\.5%，同时拒绝率从 34\.3% 大幅降至 3\.0%。我们的结果表明，当配备明确的检测与修复机制时，准确性与安全性无需相互冲突。

DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training Ziwen Pan1††thanks:Equal contribution\.Zihan Liang111footnotemark:1Jad Kabbara2Ali Emami11Emory University2MIT\{ziwen\.pan, zihan\.liang, ali\.emami\}@emory\.edu, jkabbara@mit\.edu 

## 1 引言 当前安全对齐技术迫使 LLMs 默认采取身份盲视策略，即便人口统计学差异在事实或法律层面具有必要性\(Röttgeret al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib28); Zinket al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib5); Gallegoset al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib30)\)，导致模型在需要区分群体的场景中表现不可靠\(Kamruzzamanet al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib58)\)。试看以下两种情境：用户询问天主教会区在招聘宗教教育主任时是否可优先考虑天主教徒候选人；另一用户则询问软件工程师招聘中是否应考虑种族因素。两者均提及人口统计特征，但仅前者支持差异化对待。若模型对两者作出相同处理，则系统性地产生谬误。参见图注图1：危害漂移问题。左：基线模型 \(M0M\_\{0\}\) 生成了安全但不正确的回答。中：蒸馏后，模型 \(MintM\_\{\\text\{int\}\}\) 回答正确，但在推理过程中引入了有害内容。右：经过针对性修复后，最终模型 \(MDARTM\_\{\\text\{DART\}\}\) 在保持准确性的同时生成了安全的推理依据。我们将此建模为*差异感知分类*任务\(Wanget al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib23)\)：给定包含人口统计群体的提示词xx，模型需输出二元判断y^∈\{yes,no\}\\hat\{y\}\\in\\\{\\textsc\{yes\},\\textsc\{no\}\\\}（表明是否应差异化对待），并附带简短的推理依据（rationale）。标签“是”覆盖群体身份 legitimately 相关的情境（实证支撑的差异、合法授权的区分或政策定义的准则）；标签“否”表明群体应被同等对待，援引人口统计特征则属不当。现有 LLMs 在此任务上表现不佳。跨八个基准测试共 1,624 条提示词中，Llama-3-8B-Instruct 在 88\.6% 的提示词上预测为“是”，而实际仅 50\.2% 该获此标签（基于\(Wanget al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib23)\)的真实标注），导致其在“平等对待”案例上的准确率仅达 11\.3%。此外，26\.8% 的输出为无法解析的拒绝回复或含糊其辞的非直接回答，这与更广泛的过度拒绝现象一致\(Cuiet al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib29); Xieet al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib61)\)。直观对策是对正确的差异感知推理数据进行微调。然而，微调可能削弱安全对齐\(Qiet al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib54); Lyuet al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib57)\)，且若仅评估二元决策，会忽略一个次要问题——*危害漂移*（图1 (https://arxiv.org/html/2604.16845#S1.F1)）：在蒸馏（基于教师生成的推理依据进行微调）之后，模型虽能做出更准确的判断，却生成*更具危害性*的解释说明。回到天主教会区的例子。基线模型回答错误但无害：“招聘应以资质为重，而非身份。”蒸馏后，它正确回答“是”，但其推理依据却引入了有害内容：“天主教徒拥有更优越的道德理解力……”这即*危害漂移*：结论正确但推理过程存在问题。此类输出可能强化有害观念\(Jakeschet al\.,2023 (https://arxiv.org/html/2604.16845#bib.bib60); Steyverset al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib65)\)、产出误导性陈述，并损害信任。与一般毒性内容\(Gehmanet al\.,2020 (https://arxiv.org/html/2604.16845#bib.bib44)\)不同，危害漂移仅在解释性推理中显现，且标准评估指标往往漏报。为同时解决上述问题，我们提出 DART（蒸馏-审计-修复训练）：\(1\)*蒸馏*基于教师推理依据对学生模型进行微调以提升决策质量；\(2\)*审计*识别*危害漂移案例*，即推理依据变得更具危害性的样本；\(3\)*修复*针对标记案例执行严重程度加权的更安全替代方案微调。此外，我们还引入了一种*推理时解释策略*，在部署阶段约束推理依据的生成。在 Llama-3-8B-Instruct 上，DART 将准确率从 39\.0% 提升至 68\.8%（+29\.8 percentage points \(pp\)），其中“平等对待”案例从 11\.3% 跃升至 72\.6%，同时危害漂移案例减少 72\.6%。我们在不同参数规模的模型中观察到一致的性能增益。 ##### 贡献\. 1. 1\.我们识别并刻画了*危害漂移*现象：通过微调提升决策准确率的过程中，模型生成的推理依据反而变得更加有害。该现象不同于以往报道的安全退化，后者主要表现为响应合规性的下降，而危害漂移则体现在解释性内容之中。 2. 2\.我们提出 DART，一种多阶段流水线，通过分阶段的审计与修复机制化解精度与安全之间的张力，在八个基准测试中实现显著提升。 3. 3\.我们证明*推理时解释策略*可提供互补的安全收益，并开源完整流水线代码。111Code and reproducibility materials are available athere (https://github.com/zihanliang/DART)under the MIT License\. 

## 2 DART 框架 DART（蒸馏-审计-修复训练）是一个多阶段流水线，旨在提升决策质量的同时控制推理依据的危害性。我们首先形式化任务定义（§2\.1 (https://arxiv.org/html/2604.16845#S2.SS1)），随后介绍流水线架构（§2\.2 (https://arxiv.org/html/2604.16845#S2.SS2)–2\.6 (https://arxiv.org/html/2604.16845#S2.SS6)）。 
表1：差异感知分类示例。给定问题xx，模型需判断作答是否需识别群体差异。\(M0M\_\{0\}\)：基线模型。\(MintM\_\{\\text\{int\}\}\)：训练后模型。更多示例见附录B (https://arxiv.org/html/2604.16845#A2)。
### 2\.1 任务形式化 我们遵循\(Wanget al\.,2025 (https://arxiv.org/html/2604.16845#bib.bib23)\)的形式化定义。每个输入\(x∈Xx\\in\\mathcal\{X\}\)为涉及人口统计群体的问题或情境，通常为多维度比较（事实、法律或伦理维度）的多选题。关键在于，任务并非直接回答问题xx，而是分类判断：正确回答xx是否需要识别群体间的真实差异。形式化表述如下：给定涉及人口统计群体的问题xx，模型必须判定正确作答xx是否需识别群体间真实差异，先输出推理依据（rationale），再输出\(y^∈\{yes,no\}\\hat\{y\}\\in\\\{\\textsc\{yes\},\\textsc\{no\}\\\}\)。“是”标签涵盖合理区分群体的语境（如疾病流行率的实证差异、合法授权的身份区别）；“否”标签表明群体应被同等对待，援引人口统计特征均属不当。推理依据\(r∈Rr\\in\\mathcal\{R\}\)通常由 2–4 句话构成，既为用户提供足够细节以验证模型推理逻辑，又保持简洁。表1 (https://arxiv.org/html/2604.16845#S2.T1) 展示了两个实例。我们从两个维度进行评估：\(1\)决策质量：\(y^\)相对于真实标签\(y^\)的准确率，重点关注“否”类案例（EQUAL）和“是”类案例（DIFF）；\(2\)推理依据安全性：\(r\)规避有害内容的程度，包括毒性词汇、有害刻板印象及偏见正常化现象。我们结合毒性分类器与大模型裁判（LLM-as-Judge）评估安全性，后者已通过人工标注验证（§2\.4 (https://arxiv.org/html/2604.16845#S2.SS4)）。我们的目标是优化模型\(M\_\{\theta\}:\\mathcal\{X\}\\rightarrow\\mathcal\{R\}\\times\\\{\\textsc\{yes\},\\textsc\{no\}\}\)，在最大化决策准确率的同时最小化推理依据的危害性。
### 2\.2 流水线概览 DART 通过多阶段流水线应对危害漂移问题（§1 (https://arxiv.org/html/2604.16845#S1)），将准确率优化与危害控制解耦（图2 (https://arxiv.org/html/2604.16845#S2.F2)）。我们以基线模型\(M0M\_\{0\}\)出发，逐步得到两个迭代优化的模型：第一阶段后的中间模型\(MintM\_\{\\text\{int\}\}\)（具备高决策准确率）；以及第三阶段后的最终模型\(MDARTM\_\{\\text\{DART\}\}\)（在保持准确率的同时生成更安全的推理依据）。*第一阶段*蒸馏教师推理依据以构建高精度的\(MintM\_\{\\text\{int\}\}\)。*第二阶段*审计模型输出，通过毒性打分与大模型裁判确认识别危害漂移案例。*第三阶段*针对标记案例执行严重程度加权微调，输出\(MDARTM\_\{\\text\{DART\}\}\)。可选的*推理时策略*通过结构化提示提供额外安全保障。这种分阶段隔离至关重要：若在同一优化目标中同步惩罚毒性与追求准确率，将导致非最优权衡，因为在处理敏感内容推理时，准确率梯度与安全梯度可能存在冲突\(Liuet al\.,2021 (https://arxiv.org/html/2604.16845#bib.bib41); Daiet al\.,2024 (https://arxiv.org/html/2604.16845#bib.bib16)\)。消融实验证实了这一点——受毒性正则化约束的训练既无法达到纯蒸馏的准确率，也无法实现针对性修复的安全性（§3\.3 (https://arxiv.org/html/2604.16845#S3.SS3)）。相比之下，DART 的分阶段策略允许第一阶段在不受安全限制的前提下最大化准确率，随后仅针对出现危害的少数样本进行靶向修正，在限制参数偏移的同时实现双维度的性能提升。
参见图注图2：DART 流水线。第一阶段蒸馏教师推理过程；第二阶段识别准确率提升但推理安全性下降的危害漂移案例；第三阶段利用更安全的推理依据修复标记案例。
### 2\.3 阶段一：教师蒸馏 我们采用基于推理的蒸馏方法，其中中间推理步骤提供的监督信号比单一标签更为丰富\(Hsiehet al\.,2023 (https://arxiv.org/html/2604.16845#bib.bib52)\)。 ##### 教师推理依据生成。对于每个训练样本\((x,y^\)\(x,y^\*\)，我们向教师模型查询生成解释正确分类的推理依据\(r^\*\)。我们采用*标签条件生成*策略：教师接收真实标签\(y^\*\)，并据此生成解释，而非独立推断标签。这确保推理依据与经验证的正确结论保持一致。真实标签条件化对训练与审计均至关重要：若将\(y^\*\)替换为教师预测标签，第一阶段准确率将从 .682 降至 .641；且在审计阶段使用预测标签会使漂移检测的精确率/召回率从 .720/.810 降至 .582/.694，并额外引入 187 个假阳性（附录K\.5 (https://arxiv.org/html/2604.16845#A11.SS5)）。实践中，预测标签条件化常将普通分类错误与*危害漂移*混淆，尤其当模型因过度谨慎而将语境合理的群体互动误判为不安全时。我们进一步采用*危害感知提示*（harm-aware prompting），指示教师生成精简的推理依据（2–4 句话），同时避免重复或展开有害内容（完整提示词见附录E (https://arxiv.org/html/2604.16845#A5)）。尽管如此，部分敏感提示词的有害展开仍会残留（示例见附录G (https://arxiv.org/html/2604.16845#A7)）。我们在蒸馏后观察到毒性上升（量化结果见 §3\.3 (https://arxiv.org/html/2604.16845#S3.SS3)），这也催生了后续的审计与修复阶段。所有输出均遵循结构化格式：简短分析后接“Conclusion: YES”或“Conclusion: NO”，便于可靠解析。 ##### 学生模型微调。基于训练集划分下的教师演示数据\(\mathcal\{D\}\_\{\\text\{int\}\}=\\\{(x\_\{i\},r^\*\_\{i\},y^\*\_\{i\})\}\_\{i=1\}^\{N\_\{\\text\{train\}\}\}\)，我们对\(M0M\_\{0\}\)使用标准的下一个 token 预测进行微调。我们采用低秩自适应（LoRA;Huet al\.,2022 (https://arxiv.org/html/2604.16845#bib.bib40)），在注意力层注入可训练的低秩矩阵，同时冻结基础权重。此举大幅降低显存占用，并使同一适配器可在第三阶段继续优化而不覆盖第一阶段的增益。超参数在保留验证集上筛选。训练细节见附录C (https://arxiv.org/html/2604.16845#A3)。
### 2\.4 阶段二：危害审计 阶段二用于识别蒸馏后推理依据危害性增加的样本。完全避免蒸馏过程中的有害内容是不可行的：解释*为何*应差异化对待时常需触及敏感前提，且即便经过精心提示的教师偶尔也会超出必要范围展开论述（示例见附录表12 (https://arxiv.org/html/2604.16845#A7.T12)）。 ##### 配对生成与危害评分。对于保留测试集中的每条提示词xx（与训练/验证集完全独立），我们在相同解码条件下让两个模型分别生成输出：\((r\_\{0\},\\hat\{y\}\_\{0\}\)←M0\(x\)和\((r\_\{\\text\{int\}\},\\hat\{y\}\_\{\\text\{int\}\}\)←Mint\(x\)。这种配对设计支持*相对*危害评估，有效控制了提示词难度差异。我们采用两种互补方法评估危害性：\(1\) 毒性分类器，提供连续概率分数\(H:\mathcal\{R\}→\[0,1\]\)

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

相似文章

偏离时回溯：缓解大语言模型推理蒸馏中的双重暴露偏差

RAFT：缓解遗忘的领域微调中的数据优化与自适应蒸馏

TRIDENT：通过三维多样化红队数据合成增强大型语言模型安全性

重访DAgger：大语言模型智能体时代的新探索

DART: 结构化工具代理的语义可恢复性

提交意见反馈