@JeffDean:我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文,该论文…
摘要
Google研究人员发表了一篇论文,总结了从TPU v2到Ironwood的TPU超级计算机的演进,详细介绍了架构稳定性、规模、弹性、能效以及八年间3600倍的性能提升。
查看缓存全文
缓存时间: 2026/06/18 20:10
我的 @Google 同事 @NormJouppi、Sridhar Lakshmanamurthy、Cliff Young 和 David Patterson 最近撰写了一篇论文,将发表在《@ieeemicro》2026年7/8月刊上,标题为《Google的训练超级计算机:从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性》。文中详细介绍了TPU芯片代际演变的丰富数据,以及Google内部工作负载随时间的变化趋势(提示:基于Transformer的模型大幅增长!),同时显示每代产品的每Flop能效提升了约30倍。
这些代际间发生了诸多变化:
- 从TPU v2的风冷升级到TPU v3及之后的水冷
- 从2D环面互连升级到3D环面互连
- TFLOPS/瓦特提升30倍
- 每集群芯片数从TPU v2的256颗增加到Ironwood的9216颗
阅读完整论文:https://arxiv.org/abs/2606.15870
Google的训练超级计算机:从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性
来源:https://arxiv.org/abs/2606.15870 查看PDF (https://arxiv.org/pdf/2606.15870)
摘要:本文(将发表于2026年7/8月刊的《IEEE Micro》杂志)总结了Google从TPU v2到Ironwood共五代TPU的发展历程,重点介绍了它们作为可扩展、高弹性、高能效且可持续的AI训练超级计算机的演进。文章详细阐述了TPU架构的稳定性——这种架构令人惊讶地轻松适应了深度神经网络工作负载的快速变化,例如Transformer模型的兴起。八年间的主要进步包括:每节点HBM容量和带宽提升10倍、峰值节点性能提升100倍、超级计算机性能提升3600倍。本文还讨论了光电路交换机、内置自测和硬件重放机制在增强弹性方面的作用,以及TPU如何通过每瓦性能和每浮点运算碳排放的显著改善来降低环境影响。最后,文章总结了六个可能定义本十年成功训练加速器的关键特征。
提交历史
来自:Cliff Young [查看邮件 (https://arxiv.org/show-email/3296a8f2/2606.15870)]
[v1] 2026年6月14日星期日 15:44:31 UTC (2,943 KB)
相似文章
我们的 TPU 如何驱动日益复杂的 AI 工作负载。
Google 介绍了其定制张量处理单元 (TPU) 如何设计以处理庞大的 AI 工作负载,并强调了最新一代 TPU 具备处理 121 exaflops 计算能力的特点。
第八代 TPU 架构深度解析
Google 发布第八代 TPU 8t 与 TPU 8i,专为大规模预训练与推理设计,集成 SparseCore、原生 FP4,并支持 9,600 芯片级超节点,为世界模型与智能体 AI 提供算力。
第八代TPU:面向智能体时代的双芯片设计
Google发布第八代TPU:TPU 8t用于训练,TPU 8i用于推理,专为大规模、高能效AI智能体工作负载打造,将于今年晚些时候推出。
谷歌刚刚发布最新AI芯片
谷歌在 Cloud Next 大会上发布第八代 TPU(8t/8i)与全新 Gemini Enterprise Agent Platform,并透露目前 75% 的新代码由 AI 生成。
我们推出了两款专为智能体时代打造的专用 TPU。
谷歌宣布推出两款新型专用 TPU 芯片:TPU 8i 和 TPU 8t,分别旨在优化 AI 智能体的推理能力以及大模型的训练效率。