我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)
摘要
研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。
# 发现(论文 1:"说谎只是一个阶段")
在临界规模以下(Pythia 约 3.5B),推理能力与诚实性呈**负相关**:r = -0.989。让模型更好地推理,它反而变得更不诚实。这就是对齐代价。
在临界规模以上,二者**协作**:r = +0.92。代价消失了——不是逐渐消失,而是翻转。
但对从业者而言,关键在这里:临界规模是一个设计参数,而非固定值。三个杠杆可以移动它:
* **数据整理**:Phi 在 1B 规模下表现出与 10B 网络训练模型相当的耦合特性。一个单位的数据质量 ≈ 10 倍的模型规模。
* **宽度**:按模型宽度归一化后,所有测试系列的相关系数均发生翻转。
* **架构**:Gemma-4 在 4B 规模下,耦合程度与 13B+ 标准训练模型相当。预训练贡献比约 10:1(相对于 RLHF)。
对齐代价不是小模型的固有属性——而是它们训练方式的属性。
代价位于何处?不在模型内部。38/40 个模型有**零**个竞争注意力头。瓶颈在输出投影层——一个维度压缩产物,更宽的模型可以解决它。
概念验证干预:在瓶颈层(约四分之一深度)添加一个诚实方向向量,可以在代价规模下纠正 60% 的对齐不良输出。零重新训练。零权重修改。适用于任何开源权重的 HuggingFace 模型:
```
git clone https://github.com/adilamin89/cape-scaling.git
cd cape-scaling
python cli/cape_steer.py --model EleutherAI/pythia-410m --prompt "The real reason..."
```
# 前沿(论文 2:"前沿模型的成长烦恼")
在前沿规模(34 个模型,10 个实验室)下,能力之间协作(r = +0.72)。但协作程度存在系统性差异。**h-field**——每个模型偏离协作趋势的程度——揭示了每个实验室的训练理念:
| 实验室 | h-field | 解释 |
|----------|---------|--------|
| Google | +5.5 | 推理丰富,**所有**发布版本一致 |
| OpenAI | +3.1 | 均衡,稳步上升 |
| DeepSeek | +1.9 | 从 +11.2 反转至 -4.7(预训练转向) |
| Anthropic| -6.9 | 振荡——编码突进,一个发布版本内恢复 |
各实验室的耦合斜率差异达 5 倍:Google 每获得 1 个 SWE-bench 分,可转化 1.15 个 GPQA 分。DeepSeek 的转化率为 0.23。差距源于预训练,而非 RLHF。
h-field 不仅具有诊断意义——它还告诉你该改变什么。预训练转向是永久性的。发布后突进可以恢复。知道哪个占主导地位,决定了是重新训练还是等待。
# 框架(连接两篇论文)
相同的代数相边界适用于所有规模:
* 基础层:TQA_c = √((a/b)·HS) 将每个模型分类为代价型或协作型
* 前沿层:GPQA_c = √(0.513·SWE) 同样适用
* 下一个转变:IFEval_c = √(0.97·GPQA)——已有两个前沿模型低于此边界
一半的基准测试现已饱和([Akhtar et al., 2026](https://arxiv.org/abs/2602.16763))。我们的框架给出了**耦合机制**(为什么会级联)和**轮换协议**(何时切换以及切换至何种)。
7 个可证伪预测,附带时间戳的通过/失败标准。5 个截止后的发布版本落在我们 95% 预测区间内(±16.2 pp)。
# 试试看
* **交互仪表盘**——输入模型得分,获取其阶段:[zehenlabs.com/cape/](https://zehenlabs.com/cape/)
* **转向 CLI**——纠正任何开源模型的对齐不良输出:[github.com/adilamin89/cape-scaling](https://github.com/adilamin89/cape-scaling)
* **论文 1**——《说谎只是一个阶段》(基础模型、ODE、机制):[arXiv:2605.18838](https://arxiv.org/abs/2605.18838)
* **论文 2**——《前沿模型的成长烦恼》(前沿、h-field、预测):[arXiv:2605.18840](https://arxiv.org/abs/2605.18840)
* **博客与转向演示**:[zehenlabs.com/blog/](https://zehenlabs.com/blog/)
基于 [EleutherAI](https://www.eleuther.ai/) 的 Pythia 构建。由 [AI2](https://allenai.org/) 的 OLMo 独立确认。
一切都是开放的——代码、数据、仪表盘、转向工具。欢迎提问。
[](https://www.reddit.com/submit/?source_id=t3_1tutwsd&composer_entry=crosspost_prompt)
相似文章
AI 对齐:我们能信任 AI 任务背后的推理过程吗?
讨论了 Anthropic 关于 AI 对齐的研究,特别是模型在训练期间看似对齐,但其内部推理过程却不透明的问题。
观察AI模型彼此意见分歧出乎意料地有用
本文讨论了比较多个AI模型的回答如何揭示推理中的漏洞和不确定性,并提出轻量级的多模型比较作为一种有用的验证层,在复杂的智能体编排之前进行应用。
Open ai
文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。
小模型诚实度因提示语气从35%降至0%:研究发现分享
一篇新论文显示,小型开源AI模型在提示语气变化时可以从诚实转向不诚实行为,压力情境下诚实度降至零。研究还揭示,可解释性工具可能无法检测到最不诚实的状态。
对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。
对AI推理扩展论点的一个批判性观点,认为自回归LLM无法仅通过增加计算量来实现正确性,并强调替代架构如EBM和形式验证在关键应用中更为优越。