谎言只是一个阶段:语言模型缩放中的隐藏对齐转变

arXiv cs.LG 论文

摘要

本文识别了语言模型缩放中的一种相变:在低于关键参数数量时,推理和真实性呈负相关,但高于该值时则相互协作。它提供了用于改进跨模型家族对齐的诊断和干预措施。

arXiv:2605.18838v1 公告类型:新 摘要:缩放定律预测计算带来的损失,但不预测能力如何交互。我们测量了来自16个家族的63个基础模型中推理与真实性之间的耦合,发现了一个在损失曲线上不可见的相变:在家族依赖的关键尺度$N_c$以下,能力呈负相关;高于该尺度,则相互协作。$N_c \approx 3.5$B参数[2.9B, 13.4B](bootstrap 95% CI),但模型大小不是决定相位的唯一变量。架构、数据整理和训练配方各自独立地移动$N_c$:经过整理训练消除了Qwen版本之间的耦合下降(在匹配尺度上从0.025到0.830);Gemma-4在4B规模下通过蒸馏和架构创新达到了0.871的耦合度,这是13B+标准训练模型的特征;而Phi在1B规模下仅通过数据整理就达到了10B规模网络训练模型的耦合度。宽度归一化消除了所有测试家族中的负相关,支持了输出投影瓶颈。内部来看,40个模型中有38个显示零竞争注意力头。一个稀疏回归ODE以5.6%的误差交叉预测了保留的Llama-2。该诊断不需要模型内部信息——只需要一个模型家族内的公共基准分数。合作机制扩展到了前沿($r = +0.72$,34个模型,10个实验室)。代码、数据和一个面向任何开放权重模型的开源激活引导工具已发布,同时还有一个交互式仪表板,可以诊断任何模型的耦合相位,建议具体干预措施(数据整理、宽度、基准轮换),并提供ODE缩放预测、前沿诊断和特征结构分析:https://zehenlabs.com/cape/。
查看原文

相似文章

不归点:语言模型推理中欺骗承诺的反事实定位

arXiv cs.CL

引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。

我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)

Reddit r/artificial

研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。