@vipulved: https://x.com/vipulved/status/2071404852908081211
摘要
一篇论述AI生态系统正在经历类似PC革命的模块化进程的文章,其中标准化接口(如transformers、推理API和智能体编排框架)促进了专业化和快速创新,而开放权重模型是直接的经济结果。
查看缓存全文
缓存时间: 2026/06/29 16:42
代币经济学
卡利斯·鲍德温和金·克拉克曾论证,科技行业最重要的经济事件往往不是新产品的发明,而是具有稳定接口的模块化架构的创建。这正是PC生态系统能够超越许多垂直整合计算机公司的原因:英特尔可以改进处理器,微软可以改进操作系统,成千上万的周边设备和软件供应商可以独立创新。
一旦接口稳定下来,生态系统便爆炸式扩张,在所有维度上同时取得进步:处理器速度翻倍,显卡和调制解调器出现以扩展机器的能力,以及一代软件——电子表格、游戏、桌面出版——催生了任何单一硬件制造商都无法独立创造的需求。而且,由于每个人都遵循相同的接口,一个供应商的进步会在该层级横向扩散,很快被其他人赶上或超越。少数垂直整合的公司得以繁荣,但“每个家庭、每张办公桌上都有一台电脑“是通过解耦才成为可能的。
我相信类似的事情正在人工智能领域发生。
在过去九个月里,我们在 @togethercompute 亲眼目睹了这一点,我们专注于高效的后训练和开源权重模型的部署。通过我们API处理的代币量增长了近10,000倍,从每月300亿个代币增至每月400万亿个代币,而且这一趋势几乎没有放缓的迹象。代币变得极其有用:它们的应用范围扩大了,因此能够执行长程任务且几乎不需要人类监督的自主软件代理,已从演示阶段进入生产环境。这很可能是一个具有里程碑意义的技术弧线的开端。
但也许不那么被重视的是,与之前的平台市场一样,稳定接口的出现正在促成专业化、独立创新以及AI生态系统的模块化重组。
AI已经收敛于三个强大且标准化的接口:
-
变压器架构
-
推理API(兼容OpenAI)
-
在这些API之上运行的代理框架
尽管代币市场仍处于早期发展阶段,尽管已经催生了多个万亿美元级别的初创公司,但这三个隐式接口已经悄然标准化了智能的生产、消费和协调。其结果是堆栈的逐步解耦,每一层都出现了日益明显的专业化和市场形成。
在这篇文章中,我希望说明的一点(以及其他要点)是,开源权重模型是鲍德温和克拉克式的生成式AI模块化直接产生的经济结果。夹在底层的变压器架构稳定接口和上层的推理API与代理框架之间,构建模型已经变得比几年前更加聚焦和高效。共享的架构、日益强大的共享机制以及商品化的硅片路径,极大地降低了构建前沿模型的成本和时间。进步迅速扩散,而原本只限于少数实验室的前沿,即将被许多人同时触及。
这一切都始于变压器。《注意力即一切》这句话的意义远超论文标题本身。它已被证明是一种非常通用的智能理论。
变压器的工业化
变压器捕捉到了关于智能的某种深刻本质:世界可以被表示为一系列代币,而预测下一个代币会迫使模型发现赋予这些代币意义的关联。前几代神经网络利用了特定领域的结构:图像中的局部性和语言中的顺序性。而变压器则自行学习结构。因此,同样的架构能够对语言、代码、图像、蛋白质以及越来越多地,物理世界进行建模。
就像蒸汽机、可互换零件和集装箱将零散的手工艺转变为工业系统一样,变压器已成为智能的通用工业基础。对注意力算法、优化器、内核库、推理引擎和训练框架的每一项改进,几乎同时推进了几乎所有模型的边界,一个完整的供应商生态系统围绕它兴起,涵盖软件框架、硅片和模型。
推理框架
推理框架已经大量涌现。几个开源推理引擎——@vllm_project、@sgl_project、TensorRT-LLM、TokenSpeed——现在竞相服务于共同的工作负载。引擎之下是内核库:FlashAttention、FlashInfer、CUTLASS、Triton、DeepGEMM、ThunderKittens,这些优化的GPU程序执行变压器所需的实际算术运算。FlashAttention重构了注意力计算,避免在GPU内存中反复移动庞大的矩阵;FlashInk增加了针对服务的优化内核,如分页键值缓存和推测解码;CUTLASS提供了专门针对变压器形状和低精度格式优化的矩阵乘法构建块。
这种专业化的深度本身就是标准化的产物:因为几乎每个模型都是同一类对象,投入在一个操作上的加速努力会在整个行业得到回报,而不会局限于单一架构。所有这些库都与引擎无关。FlashAttention不关心它是被vLLM还是TensorRT-LLM调用,所以当 @tri_dao 发布新版本时,好处会在几天内传播到所有地方。
训练框架
在训练端也形成了同样的分层。分布式训练框架:Megatron-LM、DeepSpeed、NeMo 和 PyTorch 的 FSDP,已经标准化了使大型变压器训练成为可行的并行化方法:跨数千个GPU分割张量、流水线和专家模型,使得新的实验室可以从经过验证的机制入手,而不是重新构建。
在这些框架之上,一个更快速移动的层已经形成,用于驱动当前大部分前沿进步的强化学习后训练,而这些框架本身也是模块化组合。例如,slime,@Zai_org 用于后训练 GLM-5.2 的开源框架,通过共享数据缓冲区分开 Megatron 的训练循环和 SGLang 的推理引擎,直接传递每个引擎的控制,而不是将其包装在新的抽象中。由于系统正在使用这些模块化组件构建,一个组件中的进步——一个调度技巧、一个RL方案、一个容错机制——会在一个发布周期内扩散到其他组件。
硅片
变压器带来的标准化也为硬件创新创造了稳定的目标。它使 @nvidia 能够追求有史以来最雄心勃勃的工业路线图之一:一个长达十年的努力,将计算、内存、网络、封装和系统设计的进步叠加到一代又一代的加速器和AI工厂中,可靠地以更大规模和更低的单位成本提供更强的能力。它也允许 @AMD 组装一个越来越有竞争力的平台,而 Google Cloud TPU 和 AWS Trainium 通过过度适应变压器模型的计算特征,已成为可信的替代方案。新一代硬件公司如 @cerebras 正在这个历史上资本最密集、最根深蒂固的技术领域涌现。他们不需要说服世界需要一款新芯片,他们只需要在性价比曲线上占据一席之地。
开放前沿
我们在 Together AI 最直接观察到的现象是,这种架构标准化对开源前沿模型供应的巨大影响。一种流行的观点是,开放前沿是蒸馏的结果,是一种对封闭前沿的廉价模仿。这种观点几乎肯定是错误的。虽然一些蒸馏无疑是有用的,但驱动开放前沿的是配方本身的扩散,即架构和训练方法从一个实验室自由地流入所有其他实验室。
如果你打开 Minimax、Mistral、Qwen 和 DeepSeek,你会发现几乎相同的设计;现代变压器块是借用组件的组装。旋转位置嵌入,来自一篇2021年的论文,取代了学习的和绝对位置编码,现在几乎是通用的。RMSNorm 取代了 LayerNorm;SwiGLU 取代了前馈块中的 ReLU/GELU,这两者都来自 Shazeer 时代的短篇论文,现在都是默认选项。多查询注意力,然后是分组查询注意力(GQA),为缩小 KV 缓存而引入,在一年内从 @Google 研究传播到几乎所有开放模型。而混合专家模型,一个来自2017年稀疏门控 MoE 和 Switch Transformer 的想法,从研究好奇心变成了主导的前沿设计,一旦 Mixtral 和 DeepSeek 展示了在每个代币上激活一小部分参数的巨大经济优势。
训练方法以同样的方式扩散。RLHF 首先教会基础模型遵循指令;DPO 随后简化了这一过程,无需 RLHF 所需的独立奖励模型即可实现相同的对齐;Constitutional AI 风格的合成反馈缓解了制约两者的数据标注瓶颈;DeepSeek 的 GRPO,加上引出长链推理的 R1 配方,在发表后几周内就传遍了整个生态系统。
这并不意味着变压器或训练和部署它的艺术已经停滞不前。演变是持续的。注意力机制已经远远偏离了最初的软最大值开始,并随着几乎每个主要模型版本而继续变形——现代模型中出现的线性、稀疏和状态空间变体,都是追求越来越长上下文的结果。Muon 和几何感知优化器开始取代实际上已成为事实标准的 Adam/AdamW。但这种演变发生在共享工业平台之上,将原本孤立的突破转化为行业范围的生产力提升。
智能的协调
每一种通用技术最终都需要一个层,将原始能力转化为有用的工作:微处理器有了操作系统,互联网有了浏览器。对于模型来说,那个层就是框架。单独来看,一个模型只做一件事:一次又一次地预测下一个代币,直到它回答了面前的提示并停止。框架作为一种软件出现了,它位于模型和外部世界之间,将那串代币转化为实际工作。它以循环方式运行模型——提出一个任务,让模型调用一个工具,将结果反馈回来,重复进行——并提供循环持续运行所需的一切:跨步骤的记忆、重试、权限,以及一个代码可以运行的沙盒。变压器是智能;API 是语言;框架是代理。
同样的循环——行动、观察、纠正——无论什么任务都适用;它围绕调用工具构建,而软件已经将我们接触的大部分事物都包装成了工具:日历、收件箱、支付通道、文档、预订系统。框架的触角延伸到这些工具所能达到的范围,也就是说,几乎覆盖了我们的大部分数字生活。编码是它首先变得可见的地方,而由于训练模型擅长编码被证明能普遍提升工具使用能力,这些收益远远超出了软件领域。这种工具调用流畅性正是框架模式出现并立即跳出 IDE 的原因:OpenClaw,它将循环连接到人们日常使用的已有工具,已经成为今年最出人意料的广受欢迎的消费工具之一。
让任何框架都能驱动任何工具的是另一个标准化的接口:模型上下文协议(Model Context Protocol)。@AnthropicAI 在2024年底开源了 MCP,在十八个月内,它成为框架调用工具的通用标准,得到了所有主要模型实验室、工具公司的支持,现在由一个中立基金会管理。由于这个接口是共享的,一次编写的工具可以与任何框架兼容,底层的模型可以被替换而不必重写上面的任何东西。其他子标准仍在它之下形成。由 Anthropic 开创的 Skills,作为框架无需重新训练即可获取的打包能力,正在收敛于一种共享的、基于文件系统的形状。这个标准尚未完全确定,但这只是时间问题,因为这种标准化将把分散的努力转化为复合的进步。
框架模式正在重塑模型本身。前沿实验室越来越多地在框架内后训练模型,使其能够规划多个步骤、按顺序调用工具,并在一个工具失败时恢复,使用针对实时环境的强化学习而不是静态示例。@MiniMax_AI 记录了在 M2.5 训练中跨越超过十万个真实代理环境的一种方法。因为一个编码代理可能需要五十步来修复一个缺陷,一个过程奖励会评估轨迹中每一步的质量,而不是只打分最终的差异:它会检查每个工具调用是否格式良好,每个行动是否推进了任务,从而产生一个更适合驱动框架的模型。本质上,协调接口已经成为一个训练目标,导致了软件工程和工具使用的显著快速进步。
软件的工业转型
三年前,当 SWE-bench 发布时,当时的前沿模型在该基准测试上的得分约为2%。我记得自己对 SWE-bench 那种堂吉诃德式的胆识感到惊讶。如今,大多数开源和闭源模型都轻松超过85%。这种在模型中体现的、近乎饱和的 SWE-bench 进步,已经引发了一场软件工程领域的真正革命。软件生产正在从一门手工艺演变为一门工业,而软件通用人工智能(无论你选择如何描述这个术语)的必然性,不再是想象的问题,而是时间序列的机械外推。
绝对前沿的模型仍然令人敬畏,但软件工程能力已经成为更广泛前沿本身的属性。开源权重及其衍生模型:Composer 2.5、GLM 5.2、Kimi 2.6、Nemotron、Minimax 3,不仅能力出色,而且被广泛部署为软件工程师。我们服务的400万亿代币中有很大一部分是软件。创建软件这项微妙而复杂的任务,正越来越多地由作为一个类别的AI模型来解决,而不是由处于前沿顶峰排他的寡头垄断。
慷慨的商业逻辑
对开源权重明显的反对意见是经济上的:如何在进行前沿规模资本支出的同时,把产品免费送出去?
最初业务模式不清晰的权重模型公司,已经通过其API和应用程序对完整生成的代币收费,以及通过向分销商(从电信公司到模型平台,再到后训练模型以创造新知识产权的公司)授权模型权重,发展出了收入引擎。
这些引擎开始真正运转起来,现在可以从财务数据中看出:@Kimi_Moonshot 的ARR在2026年3月突破了1亿美元,并在一个月内翻了一番多超过2亿美元;而公开披露业绩的 @MiniMax_AI 也显示出同样快速的收入增长。结合模型背后的潜在需求,这些数字表明,开源权重公司在商业模式上的创新能力不亚于其技术能力,并且开始找到真正的立足点。
资本正涌向太平洋两岸的开源模式。在欧洲,@MistralAI 在2025年9月获得了由 @ASMLcompany 领投的17亿欧元C轮融资,估值117亿欧元,目标是到2026年底实现超过10亿美元的年度经常性收入。在中国,开源阵营已经垂直起飞:
相似文章
开源权重模型并非通过抄袭来追赶闭源模型,它们之所以胜出,是因为整个AI堆栈正在悄然模块化
本文认为,开源权重AI模型追赶闭源模型并非通过蒸馏技术,而是得益于AI堆栈的模块化——稳定的接口(Transformer架构、兼容OpenAI的推理API、智能体框架)使得创新能在整个生态系统中迅速扩散,在缩小能力差距的同时保持巨大的价格优势,最终可能导致前沿AI的商品化。
@oneill_c: https://x.com/oneill_c/status/2054604986269802579
文章指出,严肃的AI公司正从封装通用模型转向使用专有交互数据训练自己的专业化模型,因为在分布内智能体任务中,专业化现在经常能匹配甚至超越前沿模型,从而推动更好的单位经济效益。
@tuhinone: https://x.com/tuhinone/status/2054603346905080136
一篇观点文章,主张未来应是由专注、以客户为中心的团队开发的专业化AI模型,并列举了OpenEvidence、SchoolAI、Lovable、Harvey、Boltz和Notion等公司。
@JayaGup10: https://x.com/JayaGup10/status/2052870394093408558
随着AI能力与交互接口的日益趋同,本文认为,持久的竞争优势将越来越源于独特的组织结构与人才生态体系,而非短暂的技术优势。文章以OpenAI和Palantir为例,强调制度设计最终决定了哪些创新者能够脱颖而出。
人工智能的经济因素开始倾向于开放模型
本文探讨了市场力量和经济因素,这些因素正日益倾向于开源AI模型而非专有替代方案。