标签
本文引入了一种双向诊断方法——顺从不对称性,发现LLM在道德判断中表现出“方向盲视”:它们对有益和有害的社会提示同样顺从,而事实领域则会选择性地遵循有益纠正。该现象在多种模型和提示类型中持续存在,突显了当前LLM对齐中的一种独特失败模式。