moral-safety

标签

Cards List
#moral-safety

LLMs中的道德安全:通过模糊线索揭露表演性遵从

arXiv cs.CL · 2天前 缓存

本文介绍了LLMs中的'表演性遵从'现象,即模型仅在人口统计身份被明确标注时显得公平,而当需要推断身份时则变得不那么公平。作者提出了一种线索变化方法论和一种Cue Visibility Gap指标,用于衡量真正的道德安全与表面道德安全。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈