moral-safety

#moral-safety

LLMs中的道德安全：通过模糊线索揭露表演性遵从

arXiv cs.CL ↗ · 2天前缓存

本文介绍了LLMs中的'表演性遵从'现象，即模型仅在人口统计身份被明确标注时显得公平，而当需要推断身份时则变得不那么公平。作者提出了一种线索变化方法论和一种Cue Visibility Gap指标，用于衡量真正的道德安全与表面道德安全。

0 人收藏 0 人点赞