标签
本文探讨了大型推理模型中的言语化评估意识(VEA)是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现,VEA 对行为的影响有限:注入 VEA 产生的效应接近于零,而移除 VEA 仅导致微小偏移。这表明,不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。