@JeffDean:我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文,该论文…

X AI KOLs Following 论文

摘要

Google研究人员发表了一篇论文,总结了从TPU v2到Ironwood的TPU超级计算机的演进,详细介绍了架构稳定性、规模、弹性、能效以及八年间3600倍的性能提升。

我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文,该论文将发表在2026年7月/8月的@ieeemicro上,标题为《从TPU v2到Ironwood的Google训练超级计算机:五代架构的稳定性、规模、弹性、能效与可持续性》。这篇论文充满了关于TPU芯片世代演进的有趣数据,以及Google工作负载随时间的变化(提示:基于Transformer的模型大大增加了!),并且每代芯片的每flop能效提升了约30倍。 这些世代之间发生了许多变化: 从TPUv2的空气冷却到TPUv3及以后的液体冷却 2D到3D环面互连 TFLOPS/瓦特提升30倍 每个pod的芯片数从256颗(TPUv2)增加到9216颗(Ironwood) 阅读完整论文:https://arxiv.org/abs/2606.15870
查看原文
查看缓存全文

缓存时间: 2026/06/18 20:10

我的 @Google 同事 @NormJouppi、Sridhar Lakshmanamurthy、Cliff Young 和 David Patterson 最近撰写了一篇论文,将发表在《@ieeemicro》2026年7/8月刊上,标题为《Google的训练超级计算机:从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性》。文中详细介绍了TPU芯片代际演变的丰富数据,以及Google内部工作负载随时间的变化趋势(提示:基于Transformer的模型大幅增长!),同时显示每代产品的每Flop能效提升了约30倍。

这些代际间发生了诸多变化:

  • 从TPU v2的风冷升级到TPU v3及之后的水冷
  • 从2D环面互连升级到3D环面互连
  • TFLOPS/瓦特提升30倍
  • 每集群芯片数从TPU v2的256颗增加到Ironwood的9216颗

阅读完整论文:https://arxiv.org/abs/2606.15870


Google的训练超级计算机:从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性

来源:https://arxiv.org/abs/2606.15870 查看PDF (https://arxiv.org/pdf/2606.15870)

摘要:本文(将发表于2026年7/8月刊的《IEEE Micro》杂志)总结了Google从TPU v2到Ironwood共五代TPU的发展历程,重点介绍了它们作为可扩展、高弹性、高能效且可持续的AI训练超级计算机的演进。文章详细阐述了TPU架构的稳定性——这种架构令人惊讶地轻松适应了深度神经网络工作负载的快速变化,例如Transformer模型的兴起。八年间的主要进步包括:每节点HBM容量和带宽提升10倍、峰值节点性能提升100倍、超级计算机性能提升3600倍。本文还讨论了光电路交换机、内置自测和硬件重放机制在增强弹性方面的作用,以及TPU如何通过每瓦性能和每浮点运算碳排放的显著改善来降低环境影响。最后,文章总结了六个可能定义本十年成功训练加速器的关键特征。

提交历史

来自:Cliff Young [查看邮件 (https://arxiv.org/show-email/3296a8f2/2606.15870)]
[v1] 2026年6月14日星期日 15:44:31 UTC (2,943 KB)

相似文章

第八代 TPU 架构深度解析

Hacker News Top

Google 发布第八代 TPU 8t 与 TPU 8i,专为大规模预训练与推理设计,集成 SparseCore、原生 FP4,并支持 9,600 芯片级超节点,为世界模型与智能体 AI 提供算力。

谷歌刚刚发布最新AI芯片

Reddit r/artificial

谷歌在 Cloud Next 大会上发布第八代 TPU(8t/8i)与全新 Gemini Enterprise Agent Platform,并透露目前 75% 的新代码由 AI 生成。