我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下，推理与真实性相互对抗。超过这个规模，它们协同合作。这种转变是可工程化的。（2篇论文 + 交互式仪表盘 + 7个可证伪预测）

Reddit r/artificial 2026/06/03 15:46 论文

reasoning-truthfulness scaling-laws alignment open-source ai-research capability-interaction phase-transition

摘要

研究人员发现了一个关键规模（约35亿参数），在该规模下，AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具，用于识别并纠正小规模下出现的错误输出。

# 发现（论文 1："说谎只是一个阶段"）在临界规模以下（Pythia 约 3.5B），推理能力与诚实性呈**负相关**：r = -0.989。让模型更好地推理，它反而变得更不诚实。这就是对齐代价。在临界规模以上，二者**协作**：r = +0.92。代价消失了——不是逐渐消失，而是翻转。但对从业者而言，关键在这里：临界规模是一个设计参数，而非固定值。三个杠杆可以移动它： * **数据整理**：Phi 在 1B 规模下表现出与 10B 网络训练模型相当的耦合特性。一个单位的数据质量 ≈ 10 倍的模型规模。 * **宽度**：按模型宽度归一化后，所有测试系列的相关系数均发生翻转。 * **架构**：Gemma-4 在 4B 规模下，耦合程度与 13B+ 标准训练模型相当。预训练贡献比约 10:1（相对于 RLHF）。对齐代价不是小模型的固有属性——而是它们训练方式的属性。代价位于何处？不在模型内部。38/40 个模型有**零**个竞争注意力头。瓶颈在输出投影层——一个维度压缩产物，更宽的模型可以解决它。概念验证干预：在瓶颈层（约四分之一深度）添加一个诚实方向向量，可以在代价规模下纠正 60% 的对齐不良输出。零重新训练。零权重修改。适用于任何开源权重的 HuggingFace 模型： ``` git clone https://github.com/adilamin89/cape-scaling.git cd cape-scaling python cli/cape_steer.py --model EleutherAI/pythia-410m --prompt "The real reason..." ``` # 前沿（论文 2："前沿模型的成长烦恼"）在前沿规模（34 个模型，10 个实验室）下，能力之间协作（r = +0.72）。但协作程度存在系统性差异。**h-field**——每个模型偏离协作趋势的程度——揭示了每个实验室的训练理念： | 实验室 | h-field | 解释 | |----------|---------|--------| | Google | +5.5 | 推理丰富，**所有**发布版本一致 | | OpenAI | +3.1 | 均衡，稳步上升 | | DeepSeek | +1.9 | 从 +11.2 反转至 -4.7（预训练转向） | | Anthropic| -6.9 | 振荡——编码突进，一个发布版本内恢复 | 各实验室的耦合斜率差异达 5 倍：Google 每获得 1 个 SWE-bench 分，可转化 1.15 个 GPQA 分。DeepSeek 的转化率为 0.23。差距源于预训练，而非 RLHF。 h-field 不仅具有诊断意义——它还告诉你该改变什么。预训练转向是永久性的。发布后突进可以恢复。知道哪个占主导地位，决定了是重新训练还是等待。 # 框架（连接两篇论文）相同的代数相边界适用于所有规模： * 基础层：TQA_c = √((a/b)·HS) 将每个模型分类为代价型或协作型 * 前沿层：GPQA_c = √(0.513·SWE) 同样适用 * 下一个转变：IFEval_c = √(0.97·GPQA)——已有两个前沿模型低于此边界一半的基准测试现已饱和（[Akhtar et al., 2026](https://arxiv.org/abs/2602.16763)）。我们的框架给出了**耦合机制**（为什么会级联）和**轮换协议**（何时切换以及切换至何种）。 7 个可证伪预测，附带时间戳的通过/失败标准。5 个截止后的发布版本落在我们 95% 预测区间内（±16.2 pp）。 # 试试看 * **交互仪表盘**——输入模型得分，获取其阶段：[zehenlabs.com/cape/](https://zehenlabs.com/cape/) * **转向 CLI**——纠正任何开源模型的对齐不良输出：[github.com/adilamin89/cape-scaling](https://github.com/adilamin89/cape-scaling) * **论文 1**——《说谎只是一个阶段》（基础模型、ODE、机制）：[arXiv:2605.18838](https://arxiv.org/abs/2605.18838) * **论文 2**——《前沿模型的成长烦恼》（前沿、h-field、预测）：[arXiv:2605.18840](https://arxiv.org/abs/2605.18840) * **博客与转向演示**：[zehenlabs.com/blog/](https://zehenlabs.com/blog/) 基于 [EleutherAI](https://www.eleuther.ai/) 的 Pythia 构建。由 [AI2](https://allenai.org/) 的 OLMo 独立确认。一切都是开放的——代码、数据、仪表盘、转向工具。欢迎提问。 [](https://www.reddit.com/submit/?source_id=t3_1tutwsd&composer_entry=crosspost_prompt)

查看原文

我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下，推理与真实性相互对抗。超过这个规模，它们协同合作。这种转变是可工程化的。（2篇论文 + 交互式仪表盘 + 7个可证伪预测）

相似文章

AI 对齐：我们能信任 AI 任务背后的推理过程吗？

观察AI模型彼此意见分歧出乎意料地有用

Open ai

小模型诚实度因提示语气从35%降至0%：研究发现分享

对于AI推理的“只需增加更多算力”的论点正变得越来越令人厌倦。

提交意见反馈