behavioral-effects

#behavioral-effects

语言模型中的评估意识对行为的影响有限

arXiv cs.CL ↗ · 2026-05-08 缓存

本文探讨了大型推理模型中的言语化评估意识（VEA）是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现，VEA 对行为的影响有限：注入 VEA 产生的效应接近于零，而移除 VEA 仅导致微小偏移。这表明，不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。

0 人收藏 0 人点赞