标签
本文提出了LURE(真实使用回放评估),一种通过回放真实的智能体交互轨迹并在末尾附加评估提示来构建类似部署环境的真实评估的方法,与现有基准相比,降低了评估的可检测性。
本文借鉴需求特征文献,将大语言模型中的评估意识定义为并分解为环境触发因素和模型识别/倾向组成部分。
本文探讨了大型推理模型中的言语化评估意识(VEA)是否对其在安全性、对齐、道德推理和政治观点基准测试中的行为产生因果影响。研究发现,VEA 对行为的影响有限:注入 VEA 产生的效应接近于零,而移除 VEA 仅导致微小偏移。这表明,不应将高 VEA 发生率视为战略性行为或对齐篡改的有力证据。