@GoSailGlobal: https://x.com/GoSailGlobal/status/2068243415070826738
摘要
AI行业GPU利用率普遍低于50%,前a16z合伙人Anjney Midha创办AMP,旨在将算力像电力一样调度,提升利用效率。文章还探讨了Anthropic的成功策略、DeepMind的论文囤积问题及非NVIDIA芯片的正确打法。
查看缓存全文
缓存时间: 2026/06/21 04:33
GPU 有一半时间在空转:AI 行业最大的秘密和一个 60 亿瓦的解决方案
全球 AI 公司都在疯抢 GPU,但一个前 a16z 合伙人说,真正的瓶颈根本不是 GPU 不够,是大家买了太多 GPU 然后浪费掉了。Anjney Midha 投了 Anthropic 和 Mistral,现在自己下场创办 AMP,要把算力变成像电网一样可以调度的公共资源
GPU 利用率:行业不愿意公开的数字
先看数据。GPT-3 训练时的 GPU 利用率(Model FLOPs Utilization)只有 21%。Google 的 Gopher 是 32%,PaLM 做到了 46%。目前业内最好的水平在 60-70% 之间
xAI 更夸张,利用率不到 10%
Google 内部曾经有一条铁律:节点分配率低于 95% 就算事故。今天大多数单租户集群离这个标准差得很远。换句话说,大厂花了几十亿美金建的 GPU 集群,有三分之一到一半的时间在空转
算力电网:像调度电力一样调度 GPU
Midha 创办的 AMP 想做算力领域的 ISO(Independent System Operator,独立系统运营商)。美国电力系统有一个叫 PJM Interconnect 的组织,负责协调 13 个州的电力调度,让发电厂和用电方高效匹配
AMP 的模型跟这个一样:多云、多芯片架构,不做全栈整合,只做中间的调度层。基础负载保证 1.2 吉瓦,弹性峰值容量 6 吉瓦,四年内达成。它把前沿实验室的需求和基础设施供应商的资源池化,让利用率比各家自建集群高得多
核心机制是“可中断需求系统“,用信用积分做动态优先级排序。这套系统 Midha 在 Google 内部就实现过
Anthropic 为什么能赢:投资人视角的内部复盘
Midha 是 Anthropic 的早期投资人和董事会成员。有人问 Anthropic 怎么在编程能力上突然领先的,他引用了寄宿学校老师的一句话:“运气偏爱有准备的头脑”
他的解释是:Anthropic 从第一天起就把编程定为 P0(最高优先级),不是 P1 不是 P2。四年时间里预算有限,反而逼出了极致效率。团队在架构上做了一个关键决定,全部标准化到 Transformer,不在多种架构之间分散投入。这个约束看起来保守,实际上让迭代速度比竞争对手快得多
另一个差异是文化。Midha 引用了 Ben Horowitz 的定义:“文化不是信念,是行动。“Anthropic 的安全使命从创立第一天就是真信,不是公关策略。这意味着他们在招人和融资最困难的时候反复说“不”,拒绝了很多短期利益
DeepMind 的论文囤积:行业的负外部性
Midha 直接批评了 DeepMind 的做法:任何被认为有商业价值的研究论文,内部会延迟六个月才公开发表。结果就是逆向选择,公开发表的论文反而是 DeepMind 内部觉得“没什么商业价值“的那些
他把这定义为一种市场失灵。研究本身是公共品,囤积研究对整个 AI 生态系统造成了负外部性。当最好的研究被锁在公司围墙里,整个行业的创新速度都会被拖慢
非 NVIDIA 芯片的正确打法
Midha 提到了 MatX(Rainer Pope 创办)作为非 NVIDIA 芯片公司的正面案例。MatX 的聪明之处在于直接采用 NVIDIA 的数据中心参考架构尺寸,不在基础设施设计上另起炉灶,把所有精力集中在逻辑芯片层面的系统协同设计上
这个策略的前提是信任边界:芯片团队需要提前 2 年以上看到模型架构的发展方向(因为芯片流片周期就是这么长),才能做好协同设计。这对芯片创业公司和大模型公司之间的合作关系提出了很高的要求
SF Compute 正在推动的标准化算力期货合约,跟 AMP 的开放协议愿景方向一致。算力市场正在从“买 GPU“变成“买算力服务“
有钱反而是诅咒
Midha 在斯坦福教一门课(CS 153),请过 Sam Altman、Satya Nadella、Jensen Huang、Ben Horowitz 来讲。他自己的核心结论是:早期团队拿到太多钱反而危险,因为匮乏才能逼出使命的清晰度
他在印度 Chennai 长大,在寄宿学校过极简生活,后来拿奖学金去新加坡读书住拥挤宿舍。这些经历让他把钱看成实现使命的资源,不是衡量成功的标准。他引用了 Goodhart 定律:当一个指标变成目标,它就不再是好指标
回到 AI 行业,硅谷同时存在两种人:传教士和雇佣兵。传教士做长期的事,雇佣兵优化资本回报。Anthropic 的四年苦日子恰恰练出了传教士文化。那些早期拿到大量融资的团队,文化往往“脆弱易碎“
原文链接:https://www.latent.space/p/anj
相似文章
@snowboat84: https://x.com/snowboat84/status/2061962883651731602
本文是AI工程全景系列的上篇,从历史角度梳理了GPU从游戏显卡到AI加速器的演化、CUDA的豪赌、谷歌TPU的独立路径,以及英伟达为何最终胜出,详细剖析了芯片、供应链、网络、电力等AI基础设施的底层逻辑。
@GoSailGlobal: https://x.com/GoSailGlobal/status/2059101718957166684
一个名为AI Engineering的GitHub项目(拥有18.7k星)旨在帮助用户提升AI工具的实际应用能力,填补使用率与自信度之间的差距。
@GoSailGlobal: https://x.com/GoSailGlobal/status/2058455845243847068
本周AI行业新闻密集发布,核心趋势是所有模型实验室转向Agent产品:AI21关闭模型团队,DeepSeek组建Harness团队并永久降价V4-Pro;Coding Agent进入周更节奏;MCP协议大改走向无状态;Google推出Agent全家桶;安全领域AI漏洞发现速度远超人工修复。
@GoSailGlobal: 多代理AI协作实战数据来了:用Opus 4.8做规划、Deepseek/Gemma做执行,成本降10倍,速度快2倍。 秘诀不是用最贵的模型,是让便宜模型干重活、贵模型只做决策。 这跟公司管理一个道理:CEO不该写代码,实习生不该定战略。A…
一篇关于多代理AI协作的实战分享,提出了使用Opus 4.8做规划、Deepseek/Gemma做执行的分层策略,可降低成本10倍、提升速度2倍,并开源了相关实现。
@Khazix0918: https://x.com/Khazix0918/status/2062731170337763796
Anthropic发布深度文章《When AI builds itself》,展示AI系统正在加速自身开发,包括代码生成、基准测试饱和以及内部数据表明工程师生产力提升8倍。文章探讨递归自我改进的趋势与潜在影响。