谎言只是一个阶段:语言模型缩放中的隐藏对齐转变
摘要
本文识别了语言模型缩放中的一种相变:在低于关键参数数量时,推理和真实性呈负相关,但高于该值时则相互协作。它提供了用于改进跨模型家族对齐的诊断和干预措施。
arXiv:2605.18838v1 公告类型:新
摘要:缩放定律预测计算带来的损失,但不预测能力如何交互。我们测量了来自16个家族的63个基础模型中推理与真实性之间的耦合,发现了一个在损失曲线上不可见的相变:在家族依赖的关键尺度$N_c$以下,能力呈负相关;高于该尺度,则相互协作。$N_c \approx 3.5$B参数[2.9B, 13.4B](bootstrap 95% CI),但模型大小不是决定相位的唯一变量。架构、数据整理和训练配方各自独立地移动$N_c$:经过整理训练消除了Qwen版本之间的耦合下降(在匹配尺度上从0.025到0.830);Gemma-4在4B规模下通过蒸馏和架构创新达到了0.871的耦合度,这是13B+标准训练模型的特征;而Phi在1B规模下仅通过数据整理就达到了10B规模网络训练模型的耦合度。宽度归一化消除了所有测试家族中的负相关,支持了输出投影瓶颈。内部来看,40个模型中有38个显示零竞争注意力头。一个稀疏回归ODE以5.6%的误差交叉预测了保留的Llama-2。该诊断不需要模型内部信息——只需要一个模型家族内的公共基准分数。合作机制扩展到了前沿($r = +0.72$,34个模型,10个实验室)。代码、数据和一个面向任何开放权重模型的开源激活引导工具已发布,同时还有一个交互式仪表板,可以诊断任何模型的耦合相位,建议具体干预措施(数据整理、宽度、基准轮换),并提供ODE缩放预测、前沿诊断和特征结构分析:https://zehenlabs.com/cape/。
相似文章
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
不归点:语言模型推理中欺骗承诺的反事实定位
引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。
我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)
研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。
当大语言模型学会持续犯错:合成欺骗线性表示的多模型研究
本文通过微调五个Transformer模型的诚实与欺骗变体,研究大语言模型中的合成不诚实行为,发现鲁棒且域不变的不诚实表示可以通过适度的监督微调迅速固化,这对基于激活的监控具有重要意义。
大语言模型中欺骗探测探头的压力测试:可伸缩性、鲁棒性与欺骗表征的几何特性
本文系统测试了用于大语言模型欺骗检测的线性探头,发现它们在分布偏移下失效,但风格增强型探头能恢复性能,并揭示欺骗是通过分布式亚阈值特征编码的。