configurable-safety

#configurable-safety

可配置奖励模型用于平衡安全对齐

arXiv cs.CL ↗ · 2026-06-01 缓存

本文介绍了一种可配置安全奖励模型（CSRM），该奖励模型可根据需求配置，以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果，并改善了有用性与安全性之间的权衡。

0 人收藏 0 人点赞