configurable-safety

标签

Cards List
#configurable-safety

可配置奖励模型用于平衡安全对齐

arXiv cs.CL · 2026-06-01 缓存

本文介绍了一种可配置安全奖励模型(CSRM),该奖励模型可根据需求配置,以适应大语言模型对齐中异构且不断变化的安全要求。CSRM在可配置安全基准上取得了最先进的结果,并改善了有用性与安全性之间的权衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈