@vipulved: https://x.com/vipulved/status/2071404852908081211

X AI KOLs Following 2026/06/29 01:26 新闻

economy tokens modular-architecture transformers open-weights ai-ecosystem interfaces

摘要

一篇论述AI生态系统正在经历类似PC革命的模块化进程的文章，其中标准化接口（如transformers、推理API和智能体编排框架）促进了专业化和快速创新，而开放权重模型是直接的经济结果。

https://t.co/TIeuZQUj5D

查看原文

查看缓存全文

缓存时间: 2026/06/29 16:42

代币经济学

卡利斯·鲍德温和金·克拉克曾论证，科技行业最重要的经济事件往往不是新产品的发明，而是具有稳定接口的模块化架构的创建。这正是PC生态系统能够超越许多垂直整合计算机公司的原因：英特尔可以改进处理器，微软可以改进操作系统，成千上万的周边设备和软件供应商可以独立创新。

一旦接口稳定下来，生态系统便爆炸式扩张，在所有维度上同时取得进步：处理器速度翻倍，显卡和调制解调器出现以扩展机器的能力，以及一代软件——电子表格、游戏、桌面出版——催生了任何单一硬件制造商都无法独立创造的需求。而且，由于每个人都遵循相同的接口，一个供应商的进步会在该层级横向扩散，很快被其他人赶上或超越。少数垂直整合的公司得以繁荣，但“每个家庭、每张办公桌上都有一台电脑“是通过解耦才成为可能的。

我相信类似的事情正在人工智能领域发生。

在过去九个月里，我们在 @togethercompute 亲眼目睹了这一点，我们专注于高效的后训练和开源权重模型的部署。通过我们API处理的代币量增长了近10,000倍，从每月300亿个代币增至每月400万亿个代币，而且这一趋势几乎没有放缓的迹象。代币变得极其有用：它们的应用范围扩大了，因此能够执行长程任务且几乎不需要人类监督的自主软件代理，已从演示阶段进入生产环境。这很可能是一个具有里程碑意义的技术弧线的开端。

但也许不那么被重视的是，与之前的平台市场一样，稳定接口的出现正在促成专业化、独立创新以及AI生态系统的模块化重组。

AI已经收敛于三个强大且标准化的接口：

变压器架构
推理API（兼容OpenAI）
在这些API之上运行的代理框架

尽管代币市场仍处于早期发展阶段，尽管已经催生了多个万亿美元级别的初创公司，但这三个隐式接口已经悄然标准化了智能的生产、消费和协调。其结果是堆栈的逐步解耦，每一层都出现了日益明显的专业化和市场形成。

在这篇文章中，我希望说明的一点（以及其他要点）是，开源权重模型是鲍德温和克拉克式的生成式AI模块化直接产生的经济结果。夹在底层的变压器架构稳定接口和上层的推理API与代理框架之间，构建模型已经变得比几年前更加聚焦和高效。共享的架构、日益强大的共享机制以及商品化的硅片路径，极大地降低了构建前沿模型的成本和时间。进步迅速扩散，而原本只限于少数实验室的前沿，即将被许多人同时触及。

这一切都始于变压器。《注意力即一切》这句话的意义远超论文标题本身。它已被证明是一种非常通用的智能理论。

变压器的工业化

变压器捕捉到了关于智能的某种深刻本质：世界可以被表示为一系列代币，而预测下一个代币会迫使模型发现赋予这些代币意义的关联。前几代神经网络利用了特定领域的结构：图像中的局部性和语言中的顺序性。而变压器则自行学习结构。因此，同样的架构能够对语言、代码、图像、蛋白质以及越来越多地，物理世界进行建模。

就像蒸汽机、可互换零件和集装箱将零散的手工艺转变为工业系统一样，变压器已成为智能的通用工业基础。对注意力算法、优化器、内核库、推理引擎和训练框架的每一项改进，几乎同时推进了几乎所有模型的边界，一个完整的供应商生态系统围绕它兴起，涵盖软件框架、硅片和模型。

推理框架

推理框架已经大量涌现。几个开源推理引擎——@vllm_project、@sgl_project、TensorRT-LLM、TokenSpeed——现在竞相服务于共同的工作负载。引擎之下是内核库：FlashAttention、FlashInfer、CUTLASS、Triton、DeepGEMM、ThunderKittens，这些优化的GPU程序执行变压器所需的实际算术运算。FlashAttention重构了注意力计算，避免在GPU内存中反复移动庞大的矩阵；FlashInk增加了针对服务的优化内核，如分页键值缓存和推测解码；CUTLASS提供了专门针对变压器形状和低精度格式优化的矩阵乘法构建块。

这种专业化的深度本身就是标准化的产物：因为几乎每个模型都是同一类对象，投入在一个操作上的加速努力会在整个行业得到回报，而不会局限于单一架构。所有这些库都与引擎无关。FlashAttention不关心它是被vLLM还是TensorRT-LLM调用，所以当 @tri_dao 发布新版本时，好处会在几天内传播到所有地方。

训练框架

在训练端也形成了同样的分层。分布式训练框架：Megatron-LM、DeepSpeed、NeMo 和 PyTorch 的 FSDP，已经标准化了使大型变压器训练成为可行的并行化方法：跨数千个GPU分割张量、流水线和专家模型，使得新的实验室可以从经过验证的机制入手，而不是重新构建。

在这些框架之上，一个更快速移动的层已经形成，用于驱动当前大部分前沿进步的强化学习后训练，而这些框架本身也是模块化组合。例如，slime，@Zai_org 用于后训练 GLM-5.2 的开源框架，通过共享数据缓冲区分开 Megatron 的训练循环和 SGLang 的推理引擎，直接传递每个引擎的控制，而不是将其包装在新的抽象中。由于系统正在使用这些模块化组件构建，一个组件中的进步——一个调度技巧、一个RL方案、一个容错机制——会在一个发布周期内扩散到其他组件。

硅片

变压器带来的标准化也为硬件创新创造了稳定的目标。它使 @nvidia 能够追求有史以来最雄心勃勃的工业路线图之一：一个长达十年的努力，将计算、内存、网络、封装和系统设计的进步叠加到一代又一代的加速器和AI工厂中，可靠地以更大规模和更低的单位成本提供更强的能力。它也允许 @AMD 组装一个越来越有竞争力的平台，而 Google Cloud TPU 和 AWS Trainium 通过过度适应变压器模型的计算特征，已成为可信的替代方案。新一代硬件公司如 @cerebras 正在这个历史上资本最密集、最根深蒂固的技术领域涌现。他们不需要说服世界需要一款新芯片，他们只需要在性价比曲线上占据一席之地。

开放前沿

我们在 Together AI 最直接观察到的现象是，这种架构标准化对开源前沿模型供应的巨大影响。一种流行的观点是，开放前沿是蒸馏的结果，是一种对封闭前沿的廉价模仿。这种观点几乎肯定是错误的。虽然一些蒸馏无疑是有用的，但驱动开放前沿的是配方本身的扩散，即架构和训练方法从一个实验室自由地流入所有其他实验室。

如果你打开 Minimax、Mistral、Qwen 和 DeepSeek，你会发现几乎相同的设计；现代变压器块是借用组件的组装。旋转位置嵌入，来自一篇2021年的论文，取代了学习的和绝对位置编码，现在几乎是通用的。RMSNorm 取代了 LayerNorm；SwiGLU 取代了前馈块中的 ReLU/GELU，这两者都来自 Shazeer 时代的短篇论文，现在都是默认选项。多查询注意力，然后是分组查询注意力（GQA），为缩小 KV 缓存而引入，在一年内从 @Google 研究传播到几乎所有开放模型。而混合专家模型，一个来自2017年稀疏门控 MoE 和 Switch Transformer 的想法，从研究好奇心变成了主导的前沿设计，一旦 Mixtral 和 DeepSeek 展示了在每个代币上激活一小部分参数的巨大经济优势。

训练方法以同样的方式扩散。RLHF 首先教会基础模型遵循指令；DPO 随后简化了这一过程，无需 RLHF 所需的独立奖励模型即可实现相同的对齐；Constitutional AI 风格的合成反馈缓解了制约两者的数据标注瓶颈；DeepSeek 的 GRPO，加上引出长链推理的 R1 配方，在发表后几周内就传遍了整个生态系统。

这并不意味着变压器或训练和部署它的艺术已经停滞不前。演变是持续的。注意力机制已经远远偏离了最初的软最大值开始，并随着几乎每个主要模型版本而继续变形——现代模型中出现的线性、稀疏和状态空间变体，都是追求越来越长上下文的结果。Muon 和几何感知优化器开始取代实际上已成为事实标准的 Adam/AdamW。但这种演变发生在共享工业平台之上，将原本孤立的突破转化为行业范围的生产力提升。

智能的协调

每一种通用技术最终都需要一个层，将原始能力转化为有用的工作：微处理器有了操作系统，互联网有了浏览器。对于模型来说，那个层就是框架。单独来看，一个模型只做一件事：一次又一次地预测下一个代币，直到它回答了面前的提示并停止。框架作为一种软件出现了，它位于模型和外部世界之间，将那串代币转化为实际工作。它以循环方式运行模型——提出一个任务，让模型调用一个工具，将结果反馈回来，重复进行——并提供循环持续运行所需的一切：跨步骤的记忆、重试、权限，以及一个代码可以运行的沙盒。变压器是智能；API 是语言；框架是代理。

同样的循环——行动、观察、纠正——无论什么任务都适用；它围绕调用工具构建，而软件已经将我们接触的大部分事物都包装成了工具：日历、收件箱、支付通道、文档、预订系统。框架的触角延伸到这些工具所能达到的范围，也就是说，几乎覆盖了我们的大部分数字生活。编码是它首先变得可见的地方，而由于训练模型擅长编码被证明能普遍提升工具使用能力，这些收益远远超出了软件领域。这种工具调用流畅性正是框架模式出现并立即跳出 IDE 的原因：OpenClaw，它将循环连接到人们日常使用的已有工具，已经成为今年最出人意料的广受欢迎的消费工具之一。

让任何框架都能驱动任何工具的是另一个标准化的接口：模型上下文协议（Model Context Protocol）。@AnthropicAI 在2024年底开源了 MCP，在十八个月内，它成为框架调用工具的通用标准，得到了所有主要模型实验室、工具公司的支持，现在由一个中立基金会管理。由于这个接口是共享的，一次编写的工具可以与任何框架兼容，底层的模型可以被替换而不必重写上面的任何东西。其他子标准仍在它之下形成。由 Anthropic 开创的 Skills，作为框架无需重新训练即可获取的打包能力，正在收敛于一种共享的、基于文件系统的形状。这个标准尚未完全确定，但这只是时间问题，因为这种标准化将把分散的努力转化为复合的进步。

框架模式正在重塑模型本身。前沿实验室越来越多地在框架内后训练模型，使其能够规划多个步骤、按顺序调用工具，并在一个工具失败时恢复，使用针对实时环境的强化学习而不是静态示例。@MiniMax_AI 记录了在 M2.5 训练中跨越超过十万个真实代理环境的一种方法。因为一个编码代理可能需要五十步来修复一个缺陷，一个过程奖励会评估轨迹中每一步的质量，而不是只打分最终的差异：它会检查每个工具调用是否格式良好，每个行动是否推进了任务，从而产生一个更适合驱动框架的模型。本质上，协调接口已经成为一个训练目标，导致了软件工程和工具使用的显著快速进步。

软件的工业转型

三年前，当 SWE-bench 发布时，当时的前沿模型在该基准测试上的得分约为2%。我记得自己对 SWE-bench 那种堂吉诃德式的胆识感到惊讶。如今，大多数开源和闭源模型都轻松超过85%。这种在模型中体现的、近乎饱和的 SWE-bench 进步，已经引发了一场软件工程领域的真正革命。软件生产正在从一门手工艺演变为一门工业，而软件通用人工智能（无论你选择如何描述这个术语）的必然性，不再是想象的问题，而是时间序列的机械外推。

绝对前沿的模型仍然令人敬畏，但软件工程能力已经成为更广泛前沿本身的属性。开源权重及其衍生模型：Composer 2.5、GLM 5.2、Kimi 2.6、Nemotron、Minimax 3，不仅能力出色，而且被广泛部署为软件工程师。我们服务的400万亿代币中有很大一部分是软件。创建软件这项微妙而复杂的任务，正越来越多地由作为一个类别的AI模型来解决，而不是由处于前沿顶峰排他的寡头垄断。

慷慨的商业逻辑

对开源权重明显的反对意见是经济上的：如何在进行前沿规模资本支出的同时，把产品免费送出去？

最初业务模式不清晰的权重模型公司，已经通过其API和应用程序对完整生成的代币收费，以及通过向分销商（从电信公司到模型平台，再到后训练模型以创造新知识产权的公司）授权模型权重，发展出了收入引擎。

这些引擎开始真正运转起来，现在可以从财务数据中看出：@Kimi_Moonshot 的ARR在2026年3月突破了1亿美元，并在一个月内翻了一番多超过2亿美元；而公开披露业绩的 @MiniMax_AI 也显示出同样快速的收入增长。结合模型背后的潜在需求，这些数字表明，开源权重公司在商业模式上的创新能力不亚于其技术能力，并且开始找到真正的立足点。

资本正涌向太平洋两岸的开源模式。在欧洲，@MistralAI 在2025年9月获得了由 @ASMLcompany 领投的17亿欧元C轮融资，估值117亿欧元，目标是到2026年底实现超过10亿美元的年度经常性收入。在中国，开源阵营已经垂直起飞：

@vipulved: https://x.com/vipulved/status/2071404852908081211

代币经济学

变压器的工业化

智能的协调

软件的工业转型

慷慨的商业逻辑

相似文章

开源权重模型并非通过抄袭来追赶闭源模型，它们之所以胜出，是因为整个AI堆栈正在悄然模块化

@oneill_c: https://x.com/oneill_c/status/2054604986269802579

@tuhinone: https://x.com/tuhinone/status/2054603346905080136

@JayaGup10: https://x.com/JayaGup10/status/2052870394093408558

人工智能的经济因素开始倾向于开放模型

提交意见反馈