behavioral-effects

标签

Cards List
#behavioral-effects

语言模型中的评估意识对行为的影响有限

arXiv cs.CL · 2026-05-08 缓存

本文探讨了大型推理模型中的言语化评估意识(VEA)是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现,VEA 对行为的影响有限:注入 VEA 产生的效应接近于零,而移除 VEA 仅导致微小偏移。这表明,不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈