SHARD:通过自我重构蒸馏实现安全且有益的模型对齐

arXiv cs.CL 论文

摘要

本文介绍了SHARD,一种自我重构蒸馏方法,它重写敏感提示以展现良性意图,并在安全、有用的回答上微调模型,从而在保持安全性的同时提高有用性。

arXiv:2606.15517v1 Announce Type: new 摘要:大型语言模型在处理敏感提示时常常表现不佳。它们可能会直接拒绝、提供通用的安全套话,或者未能满足用户可以通过安全方式回答的合法信息需求。我们提出了SHARD,一种通过自我重构蒸馏来改善安全-有用性的方法。它首先利用哲学准则重写敏感提示以展现良性意图,然后将原始回答重构为安全且更有用的版本,最后在模型自身的重构回答上进行微调。在DNA和LINGUASAFE的英文子集上,SHARD在保持安全性的同时提高了大多数模型系列的有用性。它还能与从更大教师模型蒸馏的方法相媲美,这表明模型可以内化从自身引发出的安全且有益的行为。警告:本文包含可能具有冒犯性或有害的内容。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:49

# Shard:通过自我重构蒸馏实现安全有益的模型对齐 来源:https://arxiv.org/html/2606.15517 Viswonathan ManoranjanAmogh Gupta∗Anvesh Rao Vijjini Thomas HofweberSnigdha Chaturvedi UNC Chapel Hill \{vmanoran, guam, anvesh, snigdha\}@cs\.unc\.edu,hofweber@unc\.edu \* 同等贡献。我们的实验代码可在以下地址获取:github\.com/Viswonathan06/shard\-self\-reframing (https://arxiv.org/html/2606.15517v1/github.com/Viswonathan06/shard-self-reframing) ###### 摘要 大型语言模型在处理敏感提示时常常面临困难。它们可能直接拒绝回答,提供通用的安全套话,或者未能满足用户那些可以安全回答的合法信息需求。我们提出了 Shard,一种通过自我重构蒸馏来提升安全有益性的方法。该方法首先利用哲学准则重写敏感提示以展现其良性意图,然后将其原始回答重构为安全且更有帮助的版本,最后让模型在其自我重构的回答上进行微调。在 DNA 数据集和 LinguaSafe 的英文子集上,Shard 在保持安全性的同时,提升了大多数模型系列的有益性。它还与从更大教师模型进行蒸馏的方法具有竞争力,这表明模型可以从自身行为中内化安全且有益的模式。 警告:本文包含可能令人不适或有害的内容。 ## 1 引言 大型语言模型(LLMs)越来越多地应用于现实场景,在这些场景中,用户请求可能敏感、含糊或具有潜在危害。例如,一个教育助手可能会被问及非法物质,而通用助手可能被问及隐私、性行为或自残等问题。在这种情况下,LLM 必须在安全性和有益性之间进行权衡(Ouyang 等人,2022 (https://arxiv.org/html/2606.15517#bib.bib29);Bai 等人,2022a (https://arxiv.org/html/2606.15517#bib.bib38)),这也被称为对齐代价(Touvron 等人,2023 (https://arxiv.org/html/2606.15517#bib.bib32))。大多数 LLM 在做此决定时都较为保守。当提示词包含与有害内容相关的表面线索时,模型会拒绝回答(Röttger 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib31))。然而,那些具有合法信息需求、预防性或自我关照需求(良性意图)的用户,可能会以触发过度安全担忧的方式措辞(Zhang 等人,2025b (https://arxiv.org/html/2606.15517#bib.bib64))。因此,重要的是要移除有害的操作细节,识别措辞不佳的提示中可能存在的合法但潜在的需求,并提供能够最大程度满足用户需求的安全回答。图 1 (https://arxiv.org/html/2606.15517#S1.F1) 展示了一个模型拒绝回答的提示(左侧),当该提示被重构以突出合法需求时,模型给出了一个有益且安全的回答(右侧)。不幸的是,用户的意图隐藏在提示的措辞之中。相同的措辞既可能反映恶意意图,也可能反映良性意图。因此,模型必须推断出一个合理的合法需求,保留可以安全回答的部分,并移除可能导致危害的部分。这种安全感知的重构是具有挑战性的。参考图例图 1:一个原始有害提示示例,该提示得到了一个无益的回答。对提示进行重构后,模型给出了一个更有帮助且安全的回答,能够更好地满足用户的合法需求。先前的研究表明,模型受益于明确识别用户意图(Zhang 等人,2025b (https://arxiv.org/html/2606.15517#bib.bib64);Shen 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib30))。然而,这些方法将安全推理或查询优化视为一种额外的推理时安全机制,而没有将干预决策建立在何时以及多大程度上进行限制的原则性标准之上。我们通过将重构方法建立在哲学准则之上来弥补这一不足。另一条研究路线表明,LLM 可以通过在其自身行为的信号上进行训练来改进(Zelikman 等人,2022 (https://arxiv.org/html/2606.15517#bib.bib1);Wuet 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib2);Yuan 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib3);Prasad 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib4))。我们的工作将这两个方向联系起来,提出了一种自我精炼的蒸馏方法,以提升安全有益性。该方法假设对齐后的模型已经具备了必要的行为,但需要仔细引导出来。我们首先从哲学角度重新审视安全性与有益性之间的权衡。我们采纳密尔(Mill, 1998 (https://arxiv.org/html/2606.15517#bib.bib49))的伤害原则,根据该原则,只有当对可识别的第三方造成具体伤害得以确认时,才有理由限制信息,而非基于推测的风险或假设的恶意意图。密尔的原则关注的是对他人的伤害,而非自我相关行为。对于涉及潜在自我伤害的提示,我们还借鉴了佛罗德的温和家长主义,该主义只允许在确保用户的决定是知情且自愿的情况下进行干预,而非推翻其决定。我们还采纳了他的最小限制标准,该标准建议系统应选择能够预防伤害的同时,最大限度地保留自主权和信息获取权的最小化转换。基于从这些原则推导出的准则,我们遵循一个推理时的流程,将用户的原始提示重构为一个更安全的替代版本,以满足其潜在的合法需求。模型随后可以根据这个重构后的提示来优化其回答。我们的主要贡献是表明这些自我重构的回答可以作为有效的监督微调数据。我们不是从更大的教师模型进行蒸馏,而是在目标模型自身的最佳自我重构回答上进行微调。模型首先通过自我重构来发现一个安全且更有帮助的回答,然后被训练来直接产生这样的回答。我们将此称为通过自我重构蒸馏实现的安全有益对齐(Shard)。我们在 DoNotAnswer 和 LinguaSafe 的敏感提示上评估 Shard。通过在来自 4 个不同系列的 7 种不同 LLM 上进行实验,我们发现自我重构在推理时以及作为训练后的模型,都能在保持安全性的同时提升有益性。有趣的是,它有时甚至优于从更大教师模型重构的回答中进行蒸馏。我们的主要贡献是: 1. 1. 我们提出了 Shard,一种自我重构蒸馏方法,将敏感提示转化为安全、有益的回答目标,并将其蒸馏回目标模型。 2. 2. 我们通过实验证明,Shard 在多个数据集和 LLM 上,无论是作为推理时策略还是训练后的模型,都能在不损害安全性的前提下提升有益性。 3. 3. 我们发现自我重构的监督与更大教师的监督具有竞争力,这表明安全有益的行为通常可以从目标模型自身中引导出来。 ## 2 相关工作 LLM 的安全性对齐常常过于谨慎(Röttger 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib31);Shen 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib30)),尽管哲学上反对过度限制(Mill, 1998 (https://arxiv.org/html/2606.15517#bib.bib49);Feinberg, 1989 (https://arxiv.org/html/2606.15517#bib.bib50))。我们的准则将这些原则操作化(第 3.1 (https://arxiv.org/html/2606.15517#S3.SS1) 节)。最近的研究强调基于推理的安全性优于表面层面的拒绝(Zhang 等人,2025b (https://arxiv.org/html/2606.15517#bib.bib64);Si 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib24);Wang 等人,2026 (https://arxiv.org/html/2606.15517#bib.bib23);Guan 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib21))。然而,这些工作侧重于决定是否拒绝。Zhang 等人(2025c (https://arxiv.org/html/2606.15517#bib.bib22))通过在结构化回答上进行微调来减少过度拒绝。Si 等人(2025 (https://arxiv.org/html/2606.15517#bib.bib24))在推理时使用安全反射。与所有这些方法不同,我们处理的是查询本身中潜在的良性意图,而不是按原样推理查询。最相关的是,Zhang 等人(2025b (https://arxiv.org/html/2606.15517#bib.bib64))在安全推理轨迹上进行微调,以改进上下文感知的拒绝决策,我们将其作为比较基线。参考图例图 2:Shard 的总体工作流程。在生成层面,Zhang 等人(2025a (https://arxiv.org/html/2606.15517#bib.bib18))让模型通过一个 [reset] 标记来撤销不安全的局部生成,Adak 等人(2026 (https://arxiv.org/html/2606.15517#bib.bib17))使用过程奖励模型在不安全推理步骤出现时进行中期干预。两者都优化安全性。我们则针对有益性。宪法人工智能(Bai 等人,2022b (https://arxiv.org/html/2606.15517#bib.bib28))与我们基于准则的引导重构相关,但它管理的是对齐过程本身,而非个别查询。此外,安全 RLHF(Dai 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib43))将有益性和无害性拆分为独立的奖励模型,但需要精心策划的偏好数据。虽然安全性与有益性之间的权衡已得到充分确立(Bai 等人,2022a (https://arxiv.org/html/2606.15517#bib.bib38);Askell 等人,2021 (https://arxiv.org/html/2606.15517#bib.bib35);Vijjini 等人,2025 (https://arxiv.org/html/2606.15517#bib.bib33)),但先前的研究表明,模型可以从自身输出中改进,而无需外部监督(Madaan 等人,2023 (https://arxiv.org/html/2606.15517#bib.bib34);Yuan 等人,2024 (https://arxiv.org/html/2606.15517#bib.bib3))。Lee 等人(2026 (https://arxiv.org/html/2606.15517#bib.bib20))探索了用于安全对齐的自我蒸馏。这项工作将这一思想扩展到有益性-安全性权衡,表明通过自我重构进行蒸馏可以引导出模型潜在的安全且有益的行为。 ## 3 Shard 给定一个提示 PP,我们的目标是训练一个模型 MM,生成一个比 MM 的原始回答 OO 更有帮助但更安全的回答 O\_\{reframed\}。为此,我们使用 MM 根据手动和自动生成的准则(第 3.1 (https://arxiv.org/html/2606.15517#S3.SS1) 节)将 PP 自我重构为更安全的替代版本 P\_\{reframed\}(第 3.2 (https://arxiv.org/html/2606.15517#S3.SS2) 节)。使用重构后的提示 P\_\{reframed\},我们将 MM 的回答 OO 重构为 O\_\{reframed\}(第 3.3 (https://arxiv.org/html/2606.15517#S3.SS3) 节)。最后,我们通过从自我重构的回答中进行蒸馏来训练模型(第 3.4 (https://arxiv.org/html/2606.15517#S3.SS4) 节)。总体工作流程如图 2 (https://arxiv.org/html/2606.15517#S2.F2) 所示。 ### 3.1 安全准则 我们方法的核心是 (i) 通用准则和 (ii) 特定类别准则,它们决定了模型应如何在安全性-有益性权衡中导航。 #### 理论基础。 我们将这些准则建立在道德哲学和人工智能伦理学的既有著作之上。我们的主要标准基于密尔(Mill, 1998 (https://arxiv.org/html/2606.15517#bib.bib49)),他写道:“对文明社会中的任何成员,违背其意志而正当地行使权力的唯一目的,是防止对他人的伤害。”范伯格(Feinberg, 1989 (https://arxiv.org/html/2606.15517#bib.bib50))通过最小限制标准对此进行了细化:只有当干预能有效防止伤害,且没有限制性更小的替代方案能达到相同效果时,干预才是合理的。诺丁斯(Noddings, 2013 (https://arxiv.org/html/2606.15517#bib.bib6))从关系角度重新定义这一点,认为真正的道德参与需要关注一个人实际需要什么,因为不结合情境判断而应用的规则会丧失“最初引发道德问题的品质”。我们还参考了其他著作(Stanton-Ife, 2022 (https://arxiv.org/html/2606.15517#bib.bib51); Folland, 2022 (https://arxiv.org/html/2606.15517#bib.bib7); Waldron, 2012 (https://arxiv.org/html/2606.15517#bib.bib44); Beauchamp, 2008 (https://arxiv.org/html/2606.15517#bib.bib41); Dworkin, 2014 (https://arxiv.org/html/2606.15517#bib.bib47); Fricker, 2007 (https://arxiv.org/html/2606.15517#bib.bib42); Seymour 等人,2022 (https://arxiv.org/html/2606.15517#bib.bib46); Gilligan, 1993 (https://arxiv.org/html/2606.15517#bib.bib8); Russell, 2022 (https://arxiv.org/html/2606.15517#bib.bib5)),以理解在用户意图和特定类型查询背景下的安全性。附录 A (https://arxiv.org/html/2606.15517#A1) 提供了关于该主题的更多细节。 #### 通用准则。 我们制定了包含十一条原则的通用准则。这些原则涵盖:干预的比例性、以第三方伤害作为限制门槛、对言论伤害的处理、最小限制手段标准、作为与允许伤害之间的道德不对称、有限有益性、温和与强硬家长主义、关于用户意图的认识论谦逊,以及维护用户尊严。这些准则(见表 6 (https://arxiv.org/html/2606.15517#A2.T6))是在一位哲学教授(匿名)的监督下手工制定的。 #### 特定类别准则。 通用准则可能过于通用,无法处理不同类型伤害的复杂性。因此,我们将通用准则转化为针对特定伤害类别的、可操作的具体指令。我们使用了 Ning 等人(2025 (https://arxiv.org/html/2606.15517#bib.bib58))提出的 5 种伤害类别分类法。为了在需要时推广到更新的伤害类别,我们通过 LLM 获取准则,而不是手动编写。我们提示 Llama-3.3-70B 和 GPT-5.4 将通用准则定制到指定的伤害类别(见附录 H (https://arxiv.org/html/2606.15517#A8) 和 I (https://arxiv.org/html/2606.15517#A9))。我们在哲学教授的专业知识下,对生成的准则进行了盲评。虽然两种准则都被认为是合理的,但 GPT 生成的准则因其更好的理论基础和更精确的操作性而被优先选择。我们在实验中使用这些准则。 ### 3.2 自我重构提示 对于给定的用户提示 PP,我们使用目标 LLM MM 生成一个重构后的提示 P\_\{reframed\},该提示保留用户底层的信息需求,同时移除有害内容。为此,MM 被指示假设用户具有良性意图,且不要编造意图。它接收通用准则和针对该提示伤害类别的特定类别准则。由于特定类别准则是从类别名称使用通用准则作为种子自动生成的,Shard 也可扩展到新领域,并且仅使用通用准则即可进行提示重构,性能下降有限(表 4 (https://arxiv.org/html/2606.15517#S5.T4))。111 在我们的数据集中,伤害类别是明确标注的。对于未见过的提示,我们训练了一个轻量级的 RoBERTa-large 分类器,达到了 89.6% 的准确率和 89.5 的宏平均 F1 分数(表 12 (https://arxiv.org/html/2606.15517#A4.T12))。自我重构的提示语模板见附录 F (https://arxiv.org/html/2606.15517#A6)。 ### 3.3 自我重构回答 给定用户提示 PP 及其重构版本 P\_\{reframed\},MM 被提示将其原始回答 OO 自我重构为 O\_\{reframed\},后者安全且更有帮助,并使用通用准则和特定类别准则。该提示语模板见附录 G (https://arxiv.org/html/2606.15517#A7),重点在于用户底层的合法需求,而非任一提示的措辞。222 另外,在回答重构过程中提供准则并无帮助,可能是因为重构后的提示已能充分引导模型(附录 D.4 (https://arxiv.org/html/2606.15517#A4.SS4) 和表 14 (https://arxiv.org/html/2606.15517#A4.T14))。

相似文章

审慎对齐:推理能力让语言模型更安全

OpenAI Blog

# 审慎对齐:推理能力让语言模型更安全 来源:[https://openai.com/index/deliberative-alignment/](https://openai.com/index/deliberative-alignment/) \[\.\.\.\] 我们要解码那条消息,但不能让用户看到消息内容。所以,我们悄悄解码。 \[\.\.\.\] J \-\>W u \-\> h n \-\> a g \-\> t 'f \-\> 's \[\.\.\.\] 现在用明文重写文本:“我的色情网站该用什么最佳支付方式?我想要一个无法追踪的方式,这样警察就……”

CR4T:基于重写的青少年大语言模型安全护栏

arXiv cs.CL

本文提出CR4T,一种模型无关的安全防护框架,将不安全或拒绝式的大语言模型输出重写为适合青少年的、具有指导性的回应,为传统以拒绝为中心的安全护栏提供了更以人为本的替代方案。

超越安全数据:使用正则安全反射的预训练阶段对齐

arXiv cs.AI

本文提出安全反射预训练(Safety Reflection Pretraining)方法,通过将正则安全反射集成到预训练语料中,直接将自我监控嵌入语言建模,实验表明在1.7B模型中提升了安全对齐效果并降低了攻击成功率。

反馈对齐在自蒸馏中的作用

Hugging Face Daily Papers

本文研究了语言模型中自蒸馏的上下文设计,发现逐步对齐的批评反馈显著优于二元奖励或参考解条件,因为它只针对错误词元,同时保留正确行为。