self-reframing

标签

Cards List
#self-reframing

SHARD:通过自我重构蒸馏实现安全且有益的模型对齐

arXiv cs.CL · 2026-06-16 缓存

本文介绍了SHARD,一种自我重构蒸馏方法,它重写敏感提示以展现良性意图,并在安全、有用的回答上微调模型,从而在保持安全性的同时提高有用性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈