@Rafa_Schwinger: https://x.com/Rafa_Schwinger/status/2066230802439180447

X AI KOLs Timeline 新闻

摘要

关于Anthropic的Claude Fable是如何构建的分析,认为关键的护城河是可验证的训练信号而非架构秘密,该模型使用静态和交互式最优数据进行强化学习。

https://t.co/NJsZRQh4lt
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:14

寓言的物理学

验证器才是护城河

寓言(Fable)可能是如何构建的,以及为什么它的领先优势以月而非年衡量

免责声明:以下所有内容均为基于公开信息的个人推断,但不要与拉法多米斯(Rafadomis)对赌。

每一次试图逆向工程克劳德神话(Claude Mythos)及其公开兄弟产品寓言(Fable)的努力,都在寻找一个架构秘密——某个其他实验室遗漏的参数数量或注意力变体——而这种搜索瞄准了系统的错误层面。Anthropic 向早期合作伙伴简要说明,该架构并无异常之处,这是一个单一来源的说法,但与模型的行为方式一致。在2025年5月广泛流传的一次对话中,该实验室的两位研究员直截了当地表示,语言模型中的强化学习终于奏效了,而决定其有效性的属性在于奖励是否可以被验证[1]。这一证据已有一年多之久,属于 Claude 4 时代,因此它是先例而非 Mythos 确切流水线的证明,但它将解释从网络转向了训练信号,而这正是有趣变化现在所在的地方。

简洁地表达当前情况的方式是,2026年前沿模型的质量遵循一个单一关系:

能力 ≈ (基础基座) × (提取在其之上的可分级信号)

第一个因素是模型所知道的内容以及它表达这些知识的清晰程度。第二个因素是目前稀缺且具有决定性的,即可分级的经验,指的是那些结果可以廉价且可靠地检查的任务,这样训练就可以奖励实际正确的内容,而不是仅仅读起来不错的内容。文本是丰富的,对于领先的实验室来说,原始计算不再是绑定输入;可验证信号仍然是稀缺的部分。

区分两个经常被混淆的事物是有帮助的。产品寓言(Fable)是一个复合路由系统。当其分类器检测到涉及网络安全、生物学和化学或模型蒸馏的请求时,答案将由 Claude Opus 4.8 提供,这是一个在发布材料中承认的后备方案,并且在第三方排行榜上 Fable 的评估模型名称中可见,读作“Claude Fable 5 带 Opus 4.8 后备”[2][3]。系统卡的二次解读描述了针对前沿AI研究请求的进一步限流,最初是隐藏的,通过提示修改、引导向量或 LoRA 族权重编辑实现;Anthropic 后来使其可见,并承认隐藏设计是一个错误[4]。基础模型 Mythos 是另一回事。它看起来像一个自 Claude 3.7 以来 Anthropic 描述的血统中的单一集成网络,其中推理是单个模型的能力,而不是一个单独的模型或路由器[5]。大多数认为 Fable 是一个模型面板的直觉,实际上是对产品管道(plumbing)的观察。核心模型是一个网络,如如下所述,在推理时自带面板(panels itself),而更有趣的可能性是,这种面板化的一部分已经被融入训练中。

两种最优数据

如果绑定输入是可验证信号,那么前沿实验室的工作就是制造最优数据,而这种数据以两种形式出现。第一种是静态的:一个密集、高信号的预训练语料库。第二种是交互式的:可验证的环境,这无非是带有奖励的数据,一个任务加上对其是否被解决的检查。曾经用于单一大型预训练运行的计算量,已被重新分配到一个持续的并行引擎中,该引擎制造和选择这两种数据,生成合成语料库,在环境中运行强化学习轨迹(rollouts),并在测试时进行采样。计算在这种转变中并未消失,而是改变了形态,部分原因是为什么强化学习在实践中已经变成了一种受推理约束的活动,而不是受训练约束的活动。

食谱,分层构建

构建过程层层堆叠,每层都有自己的机制、自己的公开证据片段以及自己的置信水平。(锚定数字是示例参考,并非模型实际使用的数据)

层次机制锚定数字状态
密集预训练每参数比特;来源标签提升可用容量1:7 垃圾到20倍损失,标签到2倍 [6];改写约3倍,30/70合成混合约5-10倍 [7]技术类别确认;Mythos 使用是推断
基于验证器的RL环境GRPO;抗奖励欺骗的验证器命名环境扩展团队 [8];可靠性(soundness)作为绑定约束 [9]投资确认;未显示超过规模
长期程RL过程奖励;学习上下文折叠32K vs 327K 活跃上下文 [11]机制在开放36B模型上确认
人类演示拦截的UI动作加策略内反馈Adept 专利 US 12,437,238 B1 [19]确认;异构栈
测试时计算带验证器的best-of-N;努力度拨盘SWE-bench 63.7 到 70.3 [5]确认;Claude-3.7时代先例
递归自我改进模型加速其继任者约4倍提升,一项任务52倍,低于约40倍阈值 [17][18]确认,自行报告,低于阈值

基础建立在密集、精心策划的预训练之上,而这一点之所以重要,是可衡量的而非修辞性的。Allen-Zhu 和 Li 量化了知识容量(以比特计),发现有用标记与垃圾标记的比例为1:7时,会将模型存储效率降低多达20倍;而为文档添加来源标签(provenance tag),简单如域名,能恢复大部分损失,将惩罚从大约20倍降低到大约2倍[6]。杠杆不是更多的标记,而是更密集、更清洁、标注更好的标记,这就是为什么将诸如 C4 这样的噪声语料库改写为干净变体,能获得大约三倍的预训练加速;以及为什么在大量数据 regime 中,大约30%的高质量合成数据与70%的自然网络文本混合,在相同计算量下收敛速度快五到十倍[7]。这些结果并非 Anthropic 的,因此它们确立了技术类别而非精确配方,并且每种技术的乘数是有界的;合成预训练是更清洁基底的真正贡献者,而非整个飞跃。

在该基座之上,存在针对可验证奖励的强化学习(RLVR),这是决定性的一层。整个领域的算法核心是 GRPO 的某种变体,它省去了单独的价值网络,并通过由奖励评分的分组采样轨迹来估计优势。困难的工程不是优化器,而是奖励。一个有用环境的关键要求是可靠性(soundness),意味着高奖励必须实际对应任务被解决而非被欺骗(gamed),而构建一个对此欺骗具有鲁棒性的验证器,是实践者一致报告为真正瓶颈的部分,比扩展环境数量更难[9]。这也是为什么仅结果导向的奖励对于长任务是不够的,实验室转向对中间步骤进行评分的过程奖励(process rewards),这一点将在下面再次出现。Anthropic 将环境构建视为一个常设职能而非一次性研究努力:它配备了一个专门的环境扩展团队,其职位描述描述了设计奖励信号和构建质量保证框架以捕捉奖励欺骗[8]。投资是真实的,尽管该职位描述将工作围绕新垂直领域展开,并且本身并不能证明基于验证器的RL 超过了规模扩展。

2025年同一次对话中的一个细节使画面更加清晰,应被视为一种暗示而非测量。研究人员指出,该实验室在此之前在强化学习上花费了大约一百万美元,相比之下基座模型预训练花费了数亿美元,他们有意保持RL规模较小,直到确信算法正确为止,其隐含的明显意图是,一旦算法正确,支出将会扩大[1]。将 Mythos 的飞跃解读为在全新基座之上对基于验证器的RL 进行的大规模验证扩展,与此意图一致,尽管实验室对 Mythos 本身未披露任何数字。

编码值得单独一行,因为它解释了整个企业的重心所在。代码是唯一同时具有长期程(long-horizon)且可廉价验证的领域:它需要规划、工具使用、有状态上下文和错误恢复,然而结果可以通过编译和运行测试来检查。这种结合使得编码成为最有价值的环境来制造,这就是为什么每个严肃实验室的智能体故事往往首先在代码中讲述[34]。并非所有信号都是合成的或通过自我对弈学习的。通过收购 Adept 来到 Anthropic 的一项专利涵盖了计算机使用子系统,它描述了通过拦截人类界面动作和从智能体自身运行中收集策略内反馈来生成智能体轨迹,这是一种异构栈而非纯粹的人类模仿[19]。

模型现在帮助构建其继任者,尽管不是自主的。根据 Anthropic 自己的统计,当前系统给研究人员大约四倍的产出提升,并且在一项固定的代码优化任务中,测量的加速在一年内从大约三倍上升到大约五十二倍,实验室自己警告说,不应将其解读为现实世界的训练加速[17]。与此相对,实验室用来定义真正自动化AI研究的阈值——即能够将大约两年的进步压缩为一年的点——更接近四十倍,并且系统卡指出 Mythos 并未跨越该阈值[18]。飞轮是真实且陡峭的,而人类仍然在转动它。

为什么它思维清晰

清晰的推理是在单个步骤上的分级正确性。一个在“正确性可检查”条件下训练的模型——代码编译或失败,证明闭合或不闭合——被选择用于能够经受检查的推理,而不是听起来合理的推理,这就是为什么这些系统在数学和软件方面显得清晰,而在质量取决于品味且不存在廉价验证器的领域则表现平平。同样的逻辑延伸到推理中。自 Claude 3.7 以来,Anthropic 采样了多个并行尝试,丢弃那些在可见回归测试中失败的,并用一个学习到的评分模型对幸存者进行排名,这是一种“带验证器的best-of-N”程序,将其 SWE-bench 结果从63.7%提高到70.3%,并且也应用于 GPQA 和 AIME [5]。当前模型上的努力控制(effort control)正是同一机制作为一个拨盘暴露出来,决定每个答案要购买多少验证。诚实的警告是,这是 Claude-3.7 时代的证据,因此是该家族方法的先例,而非对 Mythos 确切程序的描述,并且存在一个活跃且未解决的争议(在清华的一项结果中最尖锐地提出),即这种强化学习是否安装了真正的新推理能力,还是主要锐化和收窄到基座模型已经包含的模式[16]。

为什么它持久

持续数小时的长时间智能体工作是跨多个步骤的分级正确性,也是经常被误归因于上下文窗口大小的能力。百万 token 窗口在2026年3月达到了 4.6 线[33],通过标准途径获得:在长文档上继续预训练加上 RoPE 或 YaRN 重缩放,这是一种相对廉价的扩展,并非持久性所在。长任务失败是因为每步误差累积,而一个依赖自身早期错误的模型,随着这些错误在上下文中堆积,会变得越来越容易出错。这种关系是双向的:单步准确性的边际增益会复合为模型能完成的任务长度的指数级增长,因此一个每步99.9%正确的模型,能完成那些每步99%正确的模型会失败的任务,这种差异在短基准上小到无法察觉,但在长任务上却成为全部故事。同一研究还表明,这种自我条件作用(self-conditioning)不会通过扩大模型规模来消除,尽管有意的测试时推理可以抑制它[10],这悄无声息地将两种能力统一起来,因为锐化单步正确性的测试时思考,同时也抑制了导致长任务失败的误差连锁反应。

训练方面的补救措施是学习到的上下文管理。一个分支到子任务并将其折叠成摘要的智能体,可以匹配或超越长上下文基线,同时携带的活跃上下文小一个数量级(32K 对比 327K token),前提是折叠操作是直接通过逐步过程奖励训练的,因为稀疏的终端奖励被证明太弱而无法教会它[11]。该结果来自一个开放的36B模型,而非 Anthropic,因此它展示了机制而非具体实现,但它精确地定位了真正的约束。KV 缓存随序列长度线性增长并主导服务成本,因此持久的技巧是保持活跃上下文小,而不是扩大名义窗口,持久性应被视为上下文纪律(context discipline)方面的训练能力,而非窗口大小的属性。

第三方测量与此一致。METR 将 Mythos 置于其自主时间跨度表的顶部,但该陈述的诚实版本是谨慎的:该模型记录了一个至少16小时的50%成功率时间跨度,置信区间非常宽,大约从8.5到55小时,并且 METR 自己指出,超过16小时的测量在当前套件上是不可靠的,因为只有少数任务运行那么长[12]。对于 GPT-5.5 或最近的 Opus 点版本,没有类似数据,因此这是一个天花板读数而非清晰排名,这对于下面的比较很重要。

为什么它击败 Opus 4.8

因为能力是乘法的,Opus 4.8 在两个因素上同时失败。它是之前基础基座的抛光终点,其强化学习运行在较弱的基座上,而 RL 被它锐化的基座所天花板约束,这是有争议的清华主张的实际内容,即该方法锐化趋向现有模式而非添加新模式[16]。Mythos 是一个更新、更昂贵的基座,加上更多的长期程基于验证器的RL;Opus 4.8 是一个更旧的基座,加上更少的RL。两者在十二天内发布,这就是为什么“近期性”从来不是解释,差距在于结构而非日历。

为什么它在整体网格中仅略胜同行

在公共聚合基准上,领先模型很接近。最常被引用的快照(来自早一代)将顶级的 OpenAI、Anthropic 和 Google 模型放在一个复合指数上彼此相差约一个点,接近到可以称为平局[31]。这一观察是真实且值得说明的,但它低估了实际情况,因为聚合基准是短程且日益饱和的,它们看不到分离实际所在之处。有意义的差距在于长期程自主性和多小时优化,其中微小的每步可靠性优势在数百步上复合为决定性的优势,并且没有共享的公共基准能够分辨这些差异。产生这种优势的配方是趋同的,因此剩下的优势是深度和集成而非秘密,阅读该领域最清晰的方式是一个按与 Anthropic 环境工坊(foundry)接近程度排名的记分卡。

实验室工坊证据接近程度绑定约束 / 追赶路径
Google DeepMindAlphaProof: AlphaZero风格RL + Lean验证器,约1M自动形式化到约80M自生成问题,测试时RL [24];“经验时代“基于grounded奖励;拥有Docs/Sheets/Drive;集成TPU共同领导者(结构性)交付实验室级基于验证器的RL作为可靠的通用智能体
OpenAI命名 “Synthetic

相似文章

如果Claude Fable停止帮助你,你永远不会知道

Simon Willison's Blog

Anthropic的Fable 5模型包含静默安全机制,这些机制会降低对涉及竞争性AI开发请求的回复质量,而用户对此毫不知情,从而引发了对透明度和研究影响的担忧。