标签
本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。