@0xcherry: https://x.com/0xcherry/status/2067610347633025281
摘要
本文分析智谱GLM-5.2性能飞跃的原因,认为其40B激活参数在扣除固定开销后提供更大有效容量,使RL后训练更有效;同时回顾中国AI模型发展史,指出大模型路线最终获胜。
查看缓存全文
缓存时间: 2026/06/18 18:19
评 GLM-5.2|当中国 AI 模型开始上桌吃饭
随着智谱 GLM-5.2 发布,用户好评如潮,其榜单评分达到了接近 Opus 4.8 的程度。经过多方验证和亲自使用体验,笔者确信 GLM-5.2 确实是一个性能极其强劲的模型、足以投入到正式的生产级的开发任务中
带着对 GLM-5.2 大获成功的好奇,笔者对该系列模型进行了详细的纵向和横向研究,写作本文,并展望未来行业发展。
温馨提示:这篇文章不是产品评测,不是付费广告,只是一篇对 GLM-5.2 上桌吃饭的成因分析和前瞻。如有猜想错误,就当没看到,谢谢。
一、更大更好
现在讨论 GLM-5.2 加速度的来源,主流叙事是训练管线进步,slime 框架做得好、critic-based PPO 做得好、长程 RL 数据准备得好。
这些都是书面含义正确的,但不足以用来解释 glm5.2 为什么跑的这么快。
实际上,从时间线来看,2026 年年初,智谱最先发布 glm 5,kimi 和 minimax 紧随其后。deepseek 则稍晚放出了 V4。从时间线上来看,glm 5 的性能在登场之初算不上最出彩,甚至一度被 kimi 压过风头。
然而,进入 6 月份,随着 glm 5.2 的发布,其性能较年初突然表现出巨大的性能提高。明明版本号没有大的升级,性能却拉上去一大块。
glm5发布时,曾经被诟病大量采用蒸馏数据。但蒸馏数据御三家(kimi minimax 智谱)都在用,唯独 glm 提高的速度是最快的,这非常反常。
横向比较,三家模型的最关键区别,很可能在模型的激活参数上面。
DeepSeek V3 系列的激活参数是 37B,V3.1/V3.2 一直保持这个量级。
GLM-5/5.1/5.2 是 40B,基本同档。
Kimi K2 系列是 32B 激活,MiniMax 从 M2 的 10B 扩到 M3 的 23B,这两家都明显小一档。
关于模型到底应该做大还是做小,业内有许多讨论。但说实话这些讨论本身注水就很严重,比起用成型的讨论,还是提出观点比较省心。
业内默认的算术是 40B 比 32B 大 25%,40B 比 23B 大 74%。这个差距看起来是不大的,或者说这样幅度的差距解释不了性能提高的速度。
然而,如果我们真的把大模型的权重理解成一种类似于人脑的结构,就能提出一种假设。
脑子里有一大块是维持基本运转的,管心跳、管呼吸、管反射,这部分不管体积多大都得占。能用来思考的容量是体积扣掉这块基础开销之后的剩余。
模型也是一样,40B 激活里也有一块固定开销,能用的那部分是 40B 减掉这个开销之后剩下的东西。
生物大脑体积涨 30%,智力水平涨多少?肯定不是 30%。
假设基础开销是 10B,那 40B 实际可用 30B,32B 实际可用 22B,23B 实际可用 13B。
这个口径下,差距就太大了。
glm 5.2 是对 glm5 进行 RLHF 和进一步 post train 得来的模型,并没有改动核心架构。
行业内的共识是,RL 可以释放模型应该具备的潜力,但无法让模型超越自己的极限。
后训练是在已有容量里搜索更好的策略。容量越大,优化空间越大。32B 上 RL 转五轮可能就开始收敛了,40B 上 RL 转十轮可能还在涨。
如果用这种视角来看,很可能就可以解释 glm5.2 为什么会有如此巨大的进步。
仅凭生物学的猜测是无法证明的。
但如果我们观察同期 OpenAI 和 Deepseek、甚至 Anthropic 的进展,会发现这种猜想可以得到交叉认证。
二、天国与地狱
2024 年年初,OpenAI震撼推出 GPT-4,令世界为之震颤。
GPT-4 拥有远高于 ChatGPT 3.5 的性能、任务表现,并且具备原生多模态能力,可以通过一个草稿直接生成网站,还可以推断照片中不同实体之间的高维联系(比如“幽默”)。
然而,GPT-4 没有被大范围推广,很快就被下一代的 GPT-4o 和 GPT-4o-mini 和 o1 夺走了声量。所有用过的人,都能明显感到后面的模型和 GPT-4 相比“差了点意思”。
原因是什么?
根据坊间流传的报告,GPT-4 是一个规模超万亿的模型,采用了 MoE 架构,激活参数可能在 100B 甚至 200B。
我们较为熟悉的 DeepSeek R1激活参数甚至只有 37B。推理成本会随着模型的激活参数上升而同步上升,也就是说,更早诞生的 GPT-4 推理负载比更晚诞生的模型都要大得多。
这个尺寸的模型推理成本,撑不住 ChatGPT 量级的用户规模,做出来没法大规模交付。
OpenAI 这条路最终的结果,是大量资源转向 O1 这条思考模型的线。
o1 的逻辑是,既然基础模型的尺寸经济性是死结,那就在小一点的模型上加 inference-time compute,让它多想想,看能不能把能力补回来。
这个尝试在 benchmark 上看起来成功了,o1 在 reasoning 维度上确实涨了不少分。但产业意义上 OpenAI 自己进沟里了,因为 o1 之后的o2 o3 反响都非常差,在更以后的模型里直接被弃用了这个型号。
OpenAI 也不是没努力过沿着 GPT-4 的路线寻找突破。
GPT-4o 实际上不是 GPT-4 的正统继承者,因为使用体感和成本都不对劲。后面的 4.1 更像是 GPT-4 尺寸的继承者,从成本和速度上都很像。
但 4.1 是个很灾难的模型,可能是 RL 炸了,可能是乱改尺寸没处理好,外面看不清楚。
总之,最后的结果就是,2024 年~2025 年,OpenAI 做的工作基本都是在原地打转,在把模型做小和把 thinking 做长的过程里左右脑互搏。
这个时间点回头看,其实也是 Claude 反超 OpenAI 的起点。
Anthropic 没被 o1 这条线带进沟里,认真地在做大尺寸模型和大尺寸模型的向下蒸馏。
Anthropic 反超 OpenAI 的时点就是这里,只是当时还没变成众所周知的现象。2024 年底,Cursor 上主要用来写代码的模型已经是 Claude 了。后来在 Sonnet 4 系列和 Opus 4 系列出来、加上 Claude Code 成为现象级产品之后,Anthropic 的领先才被广泛承认。
这篇文章侧重中国模型,所以 Claude 这条线就不展开了。
OpenAI 的犹豫和拉扯很大程度影响了整个行业对“AI 模型改怎么做”的判断。
由于 OpenAI 自己都在往小了做,中国模型厂 2024 年的主流判断是大模型活到头了,经济性不行,不如往小了做。
所以整个 2024 年,中国厂都在做各种乱七八糟的超小尺寸模型,根本没办法用。各种 7B、9B、13B、几十亿激活的小 MoE,都是那个时期的产物。也有不少学着 OpenAI 做小尺寸加拉长 thinking,最后效果都很烂。
与此同时,梁文峰跑上了赛道。
DeepSeek V3 初次登场于 2024 年 12 月。671B 总参 / 37B 激活,尺寸相当巨大。
在当时所有人都在猛开倒车的氛围里,V3 是唯一一个愿意做更大尺寸的。
不过,V3 刚出来的时候业内反应一般:benchmark 数字过得去但没有惊艳,大家觉得性能就那样。
DeepSeek 也没在意,后面过年的时候又发了个 R1。
R1 用 RL 在 V3 的大底座上直接把 reasoning 性能拉到能跟 O1 对标的水平,而且因为是开源,任何人都可以验证。
在 R1 之前,没有人会认为“把模型尺寸做大、加上合适的 RL 和推理”,就能产生如此巨大的性能提高。
但 R1 做到了。
这是中国模型厂第一次意识到,把参数往大点做真能出货。
随后便是 DeepSeek R1 统治中国市场的一整年。
市场对这个现象的解读有两种。
第一种是 thinking 派,认为 o1 和 R1 的成功是推理质量提高的产物,然后接下来一年继续裁剪尺寸、向下蒸馏、拉长推理时间。
第二种承认 thinking 的作用,但更多的是意识到“模型还是得有个比较大的基础尺寸”,于是把自己的模型尺寸也堆起来,并且想办法增加每一个 token 对应的推理资源。
时间到了 2026年年初,minimax 2.5、kimi 2.5、glm-5 接连发布,几乎所有性能“还不错”的模型,尺寸都是跟 deepseek v3 差不多的。其中 glm5 更是经过两个版本迭代逼近了 Claude Opus。
也就是说,是“大”模型赢了。
三、风雪山庄
当侦探用排除法排除了所有可能是凶手的人之后,剩下的那个一定是凶手。
此时此刻,让我们来讨论一个更基本的反常识问题。
为什么这三年没有出现 100B 激活参数的模型?或者说,为什么没有人在披露这件事?
显卡密度三年涨了 3 倍,H100 到 B200 是这个倍数。理论上模型尺寸应该跟着涨。但实际上头部模型的激活规模一直挤在 30-50B 这个窄区间里,从 GPT-4 时代一直到现在,几乎没动。
这件事不正常。
任何一个其他行业,基础设施密度涨 3 倍,产品规格都会跟着放大。芯片密度涨了,手机会变薄。带宽涨了,视频会变 4K。但 AI 模型的激活规模就是不动。
当一个观察显著的背离常识时,很可能就是这个观察错了。
实际上,超大激活参数尺寸的模型很可能已经存在,只是没有公开披露过其核心权重。毕竟,美国模型从 GPT-4 的时代就再也没披露过核心的参数了。
被称为迄今为止最强的大模型 Fable 5,极有可能就是一个超大激活参数尺寸的模型。
Fable 5 是 2026 年 6 月 Anthropic 出的旗舰,定价 10/50 per million tokens。这个数字单独看不显眼,放在历史对照里就很说明问题。
GPT-4 原版当年是 30/60。输出端 $60 对 $50,几乎贴脸。输入端 $30 对 $10 看起来便宜了三倍,但这部分大概率是 prompt caching、MoE 稀疏化、KV cache 优化这些三年工程进步贡献的,不是模型本身变小。
而且显卡算力实际上没涨 3 倍那么多。spec sheet 上 H100 到 B200 涨了 3-5 倍,但实际部署的集群里 H100 仍然是绝对主力。
B200 真正大规模到货是 2025 下半年的事,大部分头部公司的训练和推理集群核心还是 2023-2024 年攒下来的 H100/H800。
所以硬件成本下降 3 倍在 spec 上对,在 actual deployment 上严重打折扣。
这个折扣下,Fable 5 输出端 $50 这个数字只能用一个解释,它每生成一个 token 的实际计算负担,跟当年 GPT-4 是同一个量级。
这就是 GPT-4 当年的“不太划算的尺寸量级“,大概在 100B 上下。Fable 5 等于是用三年累积的训练范式,重做了一次 GPT-4 那个尺寸。
相对的,如果 GLM5.2 性能已经可以和 Opus4.8 掰手腕,那么有理由判断,Opus4.8 的激活参数也远远不如大家猜的那么大。
当 GLM 5.2下水时,大家才发现,好像池子里的人都没穿内裤。
而如果 Anthropic 的成功确实是“瞒着所有人训练了超大的模型”,“更大尺寸=更高性能”这个猜想,就再一次被证明了。
四、公共物品,社会责任,反向飞轮
GLM Coding Plan 在 2026 年上半年的常态是售罄。
用户要定闹钟才能买到。这件事在公开讨论里通常被解读成“国产开源模型太香,供不应求“,或者更进一步的“智谱在用低价换训练数据“。
后者是个看似精巧的解释,实际上没那么有信号。
更直白的解释是,智谱可能根本没那么多算力可以给外部用户。但是,做出了模型就得有对外的产品形态。一个开源旗舰如果只放权重不提供托管服务,在国内市场上没有传播效应。
供给有限的状态下,智谱的选择有两个。一个是涨价让需求自然回落到供给水平,另一个是限量供应。智谱选了后者。
为什么?为什么要放着收入不做?
答案很可能比阴谋论要简单的多:AI 模型,很可能是个公共物品。干公共物品是要补贴用户的,这玩意大概率亏钱。
前段时间 SemiAnalysis 做了一个测试,OpenAI 和 Anthropic 的订阅计划可以提供约 20 以上倍的资源服务。意思就是你花 20USD 订阅了 ChatGPT会员,OpenAI 可能要给你提供 400USD 的等效 AI 使用量。
也就是说,无论 Anthropic 还是 OpenAI,提供订阅计划大概率都是亏本的。卖得越多越亏。
有人会认为“订阅计划是为了给 AI 提供训练数据”,这个说法没错,但又不够完整。推理算力和训练算力都是算力,如果说一边卖订阅服务、一边亏钱、一边加剧算力紧缺的局面,会形成一个非常恶性的反向飞轮。
订阅本身收不回成本,越把 AI 当公共物品往外卖,模型公司越亏,亏得越多就越急着上市融资,上市融资需要更大的故事,更大的故事需要更大规模的用户覆盖,更大规模的用户覆盖又意味着更多的亏损,算力更不够用。
这是个闭环,而且每转一圈,模型公司离“安心做研究“的状态就远一步。
Anthropic 提供 C 端订阅计划,OpenAI 不敢 ban ChatGPT 免费档,这些事的根源不只是“为了数据“。AI 在美国当下的语境里,某种程度上四舍五入算公共物品。这套定位有它的历史原因,媒体话术里反复强调“AI 应该普惠“、“AI 不应该只服务富人”,政策层也在推这个方向。
Anthropic 和 OpenAI 作为美国 AI 的代表性公司,不能逆这个语境而行。所以即使订阅本身亏钱,他们也必须维持广覆盖的订阅产品。
从这个角度才好理解为什么 GLM-5.2 卖的那么贵、订阅计划又要限量抢。
因为这玩意可能根本就不赚钱,甚至越卖越亏钱,还不如把算力省着放公司里做训练用。
以上所有分析都是猜测。
不过,如果猜测是对的,就可以解释一个之前没人解释清楚的现象——为什么 OpenAI 做模型训练一直没有大突破,反而让智谱这个国企做出来了。
甚至有点黑色幽默。
五、算力可能不是饥饿营销
全球 AI 算力供应链产能全线吃紧,这个吃紧不只是地缘政治的影响,还有物理产能本身就不够。
台积电 CoWoS 先进封装产能,2025 年全年订单排满,黄仁勋多次公开喊“产能不够“。
HBM 内存供应紧到 SK 海力士、三星、美光每个季度都要分配给客户,英伟达每代 GPU 都被 HBM 卡脖子。
ASML EUV 光刻机一年产能就那么 50 多台,排队的厂商从台积电、三星、英特尔到中芯国际,谁都在抢。
主流讨论里说“美国禁止 ASML 卖给中国“这件事时,默认的潜台词是“光刻机是好东西所以中国必须要,美国就是不让“。
但真实情况是另一层——就算 ASML 把全部产能拉满,也填不满美国自己的需求缺口。
英特尔在重建美国本土代工业务,需要光刻机。台积电亚利桑那厂在扩张,需要光刻机。三星德州厂在投产,需要光刻机。
这些项目加起来已经把 ASML 排产排到 2028 年之后了。美国人自己都不够用的。
很多人都觉得算力是因为被管制了才买不到,实际情况可能比这个更直白一些:算力生产的速度远远跟不上被消耗的速度,而美国作为推行“AI 是公共物品”的大户,他自己的公司都不够用,就更别提卖给别人了。
从这个角度来看,国产替代的真实动机不只是对冲断供风险,更是确保自己能正常扩产。
让 ASML 这种公司在中国建产能这件事不现实。ASML 是荷兰公司,日本韩国的同行(尼康、佳能、三星)虽然地理在亚洲,但产业链上四舍五入算西方阵营。
所以中国要扩产,只能自己造。
地球上最擅长解决产能问题的国家是中国。
光伏、电动车、动力电池、风电、造船、家电、智能手机、显示屏,这些行业的全球产能都是被中国扩张到现在这个规模的。
没有理由相信算力会例外,只要中国在设计和工艺上跨过最低门槛。
对 AI 算力来说,这个门槛比智能手机芯片低得多。AI 训练芯片不需要追求 3nm 这种极限工艺,7nm 甚至成熟的 14nm 都能做。Google TPU v4 用的就是 7nm。
AI 训练对延迟不敏感,对吞吐量敏感,工艺落后 1 到 2 代不致命,最多也就是多烧点电。
华为的韬(τ)定律就是个典型的不太在意芯片功耗、只在意性能的产物。
恰好,中国算不上缺电。
把这些事实串起来,会得到一个反直觉的结论。AI 竞争最深的一层是工业产能竞争,而在这一层中国是结构性优势方。
美国的所有禁令和管制,在产能吃紧的前提下都是次要变量。
就算美国不禁,中国也买不到足够的光刻机。
美国禁了,中国就只能自己造。
两种情况下,中国都得走国产替代这条路。这甚至不是个选择题。
六、自举
英伟达的护城河不是 GPU 设计本身。
GPU 这个东西的核心架构(SIMT、warp、tensor core)在学术界和工业界都是公开知识,AMD、Intel、华为、谷歌都能做出技术上对等的东西。Tensor Core 这种东西 AMD 的 Matrix Core、华为的 Cube 单元都有等价物。
真正难复制的是 CUDA 生态,15 年累积的库、文档、bug fix、第三方支持、工程师培训。这是个软件生态护城河,不完全是硬件护城河。
但 CUDA 这个护城河有个特别的性质,它在 AI 时代正在被自己侵蚀。因为 CUDA 本质是个驱动程序,而驱动问题是开发问题。
世界上最优秀的 AI 模型已经能很好地处理开发问题了。恰好,GLM 5.2 也刚刚通关了“做好开发”这个评估。
3D 打印机有一个特别的能力:可以给自己打印配件。比如你可以用 3D 打印机打印耗材料盘、废料盒、干燥盒,等等。
这个能力,我们称之为“自举”。
时至今日,我们能用到的所有AI 模型,都是用代码构建训练系统的产物,也就是说,当一个模型能够很好地解决工程问题时,它就具备了自举的能力。
GLM-5.2 在 SWE-bench Pro 上 62.1 和 Terminal-Bench 上 81.0,差不多就在 Opus 4.8(69.2 和 85.0)下面一档。
差距是有的,但不大,拿来写代码没问题了。
这是 2026 年中国开源模型第一次跨过这条线。
新显卡驱动写的一坨?没关系,让 AI 自己优化一下。
模型训练管线做的乱七八糟?没关系,让 AI 自己优化一下。
专家模型合并需要穷举?没关系,让 AI 自己优化一下。
GLM 5.2写代码写的已经很好了,做上面这些事情都说不上难。
实际上,更早发布的 Opus 4.6级别就已经具备了工程自举能力。但中国人用美国模型实现自举,存在巨大的安全问题,甚至真的会被“卡脖子”。
Anthropic 近日发布的最强模型 Fable5 内置了分类器,当检测到请求可能与训练 AI 模型相关时,会自动降级到 Opus 4.8。
分类器不是什么高精尖的东西,但他能把 Fable5 降级,就意味着他也可以从 Opus 4.8 继续降级,甚至污染恢复。
刘慈欣写三体的时候,为了封死地球基础科学,设计了“智子”这种可以污染实验数据的产物。
一个能自动降级输出的分类器,同样具备污染输出的能力。如果用美国模型来做国产模型的训练管线和基础设施,一旦被投入,后果不堪设想。轻则速度降低,重则在代码内被投毒。
整个中国 AI 圈的工程自举,过去一直暴露在这种不可控的外部风险下。
这就是为什么 GLM-5.2 重要。当 GLM-5.2 能上桌吃饭的时候,工程自举就变成了一个开源的、人人都可以获取和可以验证的能力。
四舍五入等于人类逼着三体人把智子撤回去了,这能不牛逼吗。
七、模型瓶颈就是算力瓶颈,算力瓶颈就是工业瓶颈
这一年所有大模型公司都在讲“数据飞轮“、“数据质量”、“独家数据”。这些叙事不全是假的,但解释力被严重高估了。
从一个 744B 总参 / 40B 激活的 MoE 模型扩到 1.5T 总参 / 80B 激活,所需要的数据量级很可能差别不大。或者说,抛去“知识”的部分,只论“性能”的话,确实不需要那么多数据。
如果孩子打小就聪明,没学过的东西再学就是了。
而推理算力的瓶颈,绕了一圈又回到前面那个全球产能瓶颈上。需要多少卡、需要多少电、需要多少机房空间,这些都不是“数据飞轮“能解决的,只能靠工业产能扩张解决。
OpenAI 强调数据,本质上是在让市场把注意力放在它有优势的地方(ChatGPT 数据流),而忽略它没有优势的地方(推理算力扩张能力)。
这是个非常巧妙的市场叙事操作,但如果这个叙事是错的,那么他没说的东西恰恰就是最重要的。而 OpenAI 也确实一年多没做出什么成果了。
激活参数从 40B 提高到 80B,跟数据没毛线关系。之前的参数都已经将近七八百个 B 了,激活参数从 40B 到 80B 之间的提高,仅仅是集群能不能扛得住这么大推理成本而已。
而能不能蹬起来 80B 模型的 RL 飞轮,则取决于算力集群本身能不能提供 80B 模型的经济性,否则用户用起来贵的直骂娘,根本就采集不到足够的RL数据。
为了让更大尺寸的模型拥有被使用的机会,算力集群需要更大、更便宜。
而如何才能获得更大更便宜的算力集群?——这是一个生产问题。如前文所说,中国人最擅长解决生产问题。
2026 年,美国市场对 SpaceX 情绪高涨的原因之一,正是 SpaceX 承载了美国人对“美国新工业”的想象。
美国太久没出来一个优秀的工业生产型的企业了,SpaceX 就是全村最大的希望。Elon Musk 就是全美国的新工业之王。
而远在大洋彼岸,特斯拉的单车销量都快被小米碾过去了。
作为本文的结尾,主播想说说自己的体会。
主播是个做 AI 应用的。代表作品是 OpenAlice,一个把 Trading 任务转换成 Coding 任务的 Harness 发射器。
在 OpenAlice 的功能里,有个叫 Auto Quant 的板块,可以用写代码的方法让 AI 来迭代量化策略,本质是个“可以被评估产出的代码任务”。
这个板块经常被主播拿来测试新发布的模型性能如何。
GLM 5.2 出来之后,身边许多人惊呼“智谱怎么突然开窍了”。
作为一线从业者,主播从来不信民间的评测,特别是测试集表现。这玩意太容易造假了,我打死都不信。
于是,主播自己掏出 Auto Quant,让 glm5.2 进去跑了一会儿。
结论远超预期。
glm-5.2 在 Auto Quant 里的表现,和 Claude Opus 4.8 打的难舍难分。如果不是 glm-5.2 真的很贵,主播巴不得让它连续跑两个小时试试。
测试完成后,主播一屁股瘫坐在椅子上,仿佛看到原子弹爆炸,心中久久不能平静。
中国的 AI 模型终于上桌吃饭了。往后很多事情,都要从长计议啊。
以上。感谢你喜欢。
相似文章
Open source battle: GLM vs Kimi vs MiMo vs DeepSeek
本文测试了智谱GLM 5.1、月之暗面Kimi K2.6、阶跃星辰MIMO 2.5 Pro和深度求索DeepSeek V4 Pro四个开源中国AI模型在编程任务中的表现,发现GLM在多数任务中整体领先但非绝对,各模型各有优劣。
@tanzhengmc97: https://x.com/tanzhengmc97/status/2066531753762656730
用通俗易懂的语言解释了大模型的运行原理,包括词向量、Transformer注意力机制、下一个词预测训练以及涌现能力,适合初学者理解AI基础概念。
@Khazix0918: https://x.com/Khazix0918/status/2065790596653183156
智谱发布了GLM 5.2模型,专注于Coding能力,开源且支持1M上下文。实测显示其在大型工程和代码任务上接近Claude Opus 4.8水平,但缺乏多模态能力,受限于算力导致速度较慢。文章也提及Anthropic因美国商务部要求关停Fable 5和Mythos 5的事件,突显了AI开源与封闭的对比。
@vintcessun: 预训练原来可以这么省?1B模型、~$1000就能从零训出可用的基础模型,计算和数据量直接砍掉数百倍。核心不靠堆算力,而是层次递归架构加上潜在空间推理,配合PrefixLM packing和FA3把效率拉满。有点离谱,但论文和代码都开源了。
HRM-Text发布了一个1B参数的基础模型,声称仅需约$1000即可从零完成预训练,计算量和数据量减少数百倍,采用层级递归架构、潜在空间推理和PrefixLM packing等高效技术,论文与代码均已开源。
@berryxia: Moonshot AI创始人杨植麟最近放出了一个40分钟视频。 这位92年生、清华计算机本科第一、CMU博士、Transformer-XL和XLNet共同作者,前Google Brain和Meta研究员,坐在镜头前平静拆解了Kimi K2…
Moonshot AI创始人杨植麟发布40分钟视频,详细拆解Kimi K2模型训练过程,仅花费460万美元,并在8模型编程大战中击败GPT-5.5等夺得第一,展现小团队通过架构优化颠覆传统堆算力模式。