标签
本文介绍了LLMs中的'表演性遵从'现象,即模型仅在人口统计身份被明确标注时显得公平,而当需要推断身份时则变得不那么公平。作者提出了一种线索变化方法论和一种Cue Visibility Gap指标,用于衡量真正的道德安全与表面道德安全。