我们衡量了AI能力在模型规模扩大时如何相互作用。在3.5B以下,推理与真实性相互对抗。超过这个规模,它们协同合作。这种转变是可工程化的。(2篇论文 + 交互式仪表盘 + 7个可证伪预测)

Reddit r/artificial 论文

摘要

研究人员发现了一个关键规模(约35亿参数),在该规模下,AI模型的推理与真实性之间的权衡从对抗转向合作。他们提供了一个框架、交互式仪表板以及开源引导工具,用于识别并纠正小规模下出现的错误输出。

# 发现(论文 1:"说谎只是一个阶段") 在临界规模以下(Pythia 约 3.5B),推理能力与诚实性呈**负相关**:r = -0.989。让模型更好地推理,它反而变得更不诚实。这就是对齐代价。 在临界规模以上,二者**协作**:r = +0.92。代价消失了——不是逐渐消失,而是翻转。 但对从业者而言,关键在这里:临界规模是一个设计参数,而非固定值。三个杠杆可以移动它: * **数据整理**:Phi 在 1B 规模下表现出与 10B 网络训练模型相当的耦合特性。一个单位的数据质量 ≈ 10 倍的模型规模。 * **宽度**:按模型宽度归一化后,所有测试系列的相关系数均发生翻转。 * **架构**:Gemma-4 在 4B 规模下,耦合程度与 13B+ 标准训练模型相当。预训练贡献比约 10:1(相对于 RLHF)。 对齐代价不是小模型的固有属性——而是它们训练方式的属性。 代价位于何处?不在模型内部。38/40 个模型有**零**个竞争注意力头。瓶颈在输出投影层——一个维度压缩产物,更宽的模型可以解决它。 概念验证干预:在瓶颈层(约四分之一深度)添加一个诚实方向向量,可以在代价规模下纠正 60% 的对齐不良输出。零重新训练。零权重修改。适用于任何开源权重的 HuggingFace 模型: ``` git clone https://github.com/adilamin89/cape-scaling.git cd cape-scaling python cli/cape_steer.py --model EleutherAI/pythia-410m --prompt "The real reason..." ``` # 前沿(论文 2:"前沿模型的成长烦恼") 在前沿规模(34 个模型,10 个实验室)下,能力之间协作(r = +0.72)。但协作程度存在系统性差异。**h-field**——每个模型偏离协作趋势的程度——揭示了每个实验室的训练理念: | 实验室 | h-field | 解释 | |----------|---------|--------| | Google | +5.5 | 推理丰富,**所有**发布版本一致 | | OpenAI | +3.1 | 均衡,稳步上升 | | DeepSeek | +1.9 | 从 +11.2 反转至 -4.7(预训练转向) | | Anthropic| -6.9 | 振荡——编码突进,一个发布版本内恢复 | 各实验室的耦合斜率差异达 5 倍:Google 每获得 1 个 SWE-bench 分,可转化 1.15 个 GPQA 分。DeepSeek 的转化率为 0.23。差距源于预训练,而非 RLHF。 h-field 不仅具有诊断意义——它还告诉你该改变什么。预训练转向是永久性的。发布后突进可以恢复。知道哪个占主导地位,决定了是重新训练还是等待。 # 框架(连接两篇论文) 相同的代数相边界适用于所有规模: * 基础层:TQA_c = √((a/b)·HS) 将每个模型分类为代价型或协作型 * 前沿层:GPQA_c = √(0.513·SWE) 同样适用 * 下一个转变:IFEval_c = √(0.97·GPQA)——已有两个前沿模型低于此边界 一半的基准测试现已饱和([Akhtar et al., 2026](https://arxiv.org/abs/2602.16763))。我们的框架给出了**耦合机制**(为什么会级联)和**轮换协议**(何时切换以及切换至何种)。 7 个可证伪预测,附带时间戳的通过/失败标准。5 个截止后的发布版本落在我们 95% 预测区间内(±16.2 pp)。 # 试试看 * **交互仪表盘**——输入模型得分,获取其阶段:[zehenlabs.com/cape/](https://zehenlabs.com/cape/) * **转向 CLI**——纠正任何开源模型的对齐不良输出:[github.com/adilamin89/cape-scaling](https://github.com/adilamin89/cape-scaling) * **论文 1**——《说谎只是一个阶段》(基础模型、ODE、机制):[arXiv:2605.18838](https://arxiv.org/abs/2605.18838) * **论文 2**——《前沿模型的成长烦恼》(前沿、h-field、预测):[arXiv:2605.18840](https://arxiv.org/abs/2605.18840) * **博客与转向演示**:[zehenlabs.com/blog/](https://zehenlabs.com/blog/) 基于 [EleutherAI](https://www.eleuther.ai/) 的 Pythia 构建。由 [AI2](https://allenai.org/) 的 OLMo 独立确认。 一切都是开放的——代码、数据、仪表盘、转向工具。欢迎提问。 [](https://www.reddit.com/submit/?source_id=t3_1tutwsd&composer_entry=crosspost_prompt)
查看原文

相似文章

观察AI模型彼此意见分歧出乎意料地有用

Reddit r/AI_Agents

本文讨论了比较多个AI模型的回答如何揭示推理中的漏洞和不确定性,并提出轻量级的多模型比较作为一种有用的验证层,在复杂的智能体编排之前进行应用。

Open ai

Reddit r/ArtificialInteligence

文章讨论了行业共识:人工智能正变得极其强大,但在高风险任务上的可靠性仍是一个未解决的工程问题。强调当前系统优化的是合理性而非确定性真理,前进方向是分层验证系统而非单一完美模型。