intent-calibrated

标签

Cards List
#intent-calibrated

OpenSafeIntent:评估跨双重用途提示集的意图校准安全完成

arXiv cs.CL · 昨天 缓存

OpenSafeIntent引入了一个受控提示集基准,这些提示集在保持任务不变的情况下改变意图,从而能够评估模型是否在良性、双重用途和恶意变体之间校准辅助行为,而不是在平均水平上看起来安全。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈