谎言只是一个阶段：语言模型缩放中的隐藏对齐转变

arXiv cs.LG 2026/05/20 04:00 论文

alignment scaling-laws language-models truthfulness coupling interpretability phase-transition

摘要

本文识别了语言模型缩放中的一种相变：在低于关键参数数量时，推理和真实性呈负相关，但高于该值时则相互协作。它提供了用于改进跨模型家族对齐的诊断和干预措施。

arXiv:2605.18838v1 公告类型：新摘要：缩放定律预测计算带来的损失，但不预测能力如何交互。我们测量了来自16个家族的63个基础模型中推理与真实性之间的耦合，发现了一个在损失曲线上不可见的相变：在家族依赖的关键尺度$N_c$以下，能力呈负相关；高于该尺度，则相互协作。$N_c \approx 3.5$B参数[2.9B, 13.4B]（bootstrap 95% CI），但模型大小不是决定相位的唯一变量。架构、数据整理和训练配方各自独立地移动$N_c$：经过整理训练消除了Qwen版本之间的耦合下降（在匹配尺度上从0.025到0.830）；Gemma-4在4B规模下通过蒸馏和架构创新达到了0.871的耦合度，这是13B+标准训练模型的特征；而Phi在1B规模下仅通过数据整理就达到了10B规模网络训练模型的耦合度。宽度归一化消除了所有测试家族中的负相关，支持了输出投影瓶颈。内部来看，40个模型中有38个显示零竞争注意力头。一个稀疏回归ODE以5.6%的误差交叉预测了保留的Llama-2。该诊断不需要模型内部信息——只需要一个模型家族内的公共基准分数。合作机制扩展到了前沿（$r = +0.72$，34个模型，10个实验室）。代码、数据和一个面向任何开放权重模型的开源激活引导工具已发布，同时还有一个交互式仪表板，可以诊断任何模型的耦合相位，建议具体干预措施（数据整理、宽度、基准轮换），并提供ODE缩放预测、前沿诊断和特征结构分析：https://zehenlabs.com/cape/。

查看原文

谎言只是一个阶段：语言模型缩放中的隐藏对齐转变

相似文章

探究语言模型的思维失调过程

模型是否会无需明确后果就伪装对齐？

LLMs中的隐藏潜在状态偏移：为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中

不归点：语言模型推理中欺骗承诺的反事实定位

我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下，推理与真实性相互对抗。超过这个规模，它们协同合作。这种转变是可工程化的。（2篇论文 + 交互式仪表盘 + 7个可证伪预测）

提交意见反馈