@JeffDean：我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文，该论文…

X AI KOLs Following 2026/06/18 18:51 论文

摘要

Google研究人员发表了一篇论文，总结了从TPU v2到Ironwood的TPU超级计算机的演进，详细介绍了架构稳定性、规模、弹性、能效以及八年间3600倍的性能提升。

我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文，该论文将发表在2026年7月/8月的@ieeemicro上，标题为《从TPU v2到Ironwood的Google训练超级计算机：五代架构的稳定性、规模、弹性、能效与可持续性》。这篇论文充满了关于TPU芯片世代演进的有趣数据，以及Google工作负载随时间的变化（提示：基于Transformer的模型大大增加了！），并且每代芯片的每flop能效提升了约30倍。这些世代之间发生了许多变化：从TPUv2的空气冷却到TPUv3及以后的液体冷却 2D到3D环面互连 TFLOPS/瓦特提升30倍每个pod的芯片数从256颗（TPUv2）增加到9216颗（Ironwood）阅读完整论文：https://arxiv.org/abs/2606.15870

查看原文

查看缓存全文

缓存时间: 2026/06/18 20:10

我的 @Google 同事 @NormJouppi、Sridhar Lakshmanamurthy、Cliff Young 和 David Patterson 最近撰写了一篇论文，将发表在《@ieeemicro》2026年7/8月刊上，标题为《Google的训练超级计算机：从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性》。文中详细介绍了TPU芯片代际演变的丰富数据，以及Google内部工作负载随时间的变化趋势（提示：基于Transformer的模型大幅增长！），同时显示每代产品的每Flop能效提升了约30倍。

这些代际间发生了诸多变化：

从TPU v2的风冷升级到TPU v3及之后的水冷
从2D环面互连升级到3D环面互连
TFLOPS/瓦特提升30倍
每集群芯片数从TPU v2的256颗增加到Ironwood的9216颗

阅读完整论文：https://arxiv.org/abs/2606.15870

Google的训练超级计算机：从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性

来源：https://arxiv.org/abs/2606.15870 查看PDF (https://arxiv.org/pdf/2606.15870)

摘要：本文（将发表于2026年7/8月刊的《IEEE Micro》杂志）总结了Google从TPU v2到Ironwood共五代TPU的发展历程，重点介绍了它们作为可扩展、高弹性、高能效且可持续的AI训练超级计算机的演进。文章详细阐述了TPU架构的稳定性——这种架构令人惊讶地轻松适应了深度神经网络工作负载的快速变化，例如Transformer模型的兴起。八年间的主要进步包括：每节点HBM容量和带宽提升10倍、峰值节点性能提升100倍、超级计算机性能提升3600倍。本文还讨论了光电路交换机、内置自测和硬件重放机制在增强弹性方面的作用，以及TPU如何通过每瓦性能和每浮点运算碳排放的显著改善来降低环境影响。最后，文章总结了六个可能定义本十年成功训练加速器的关键特征。

提交历史

来自：Cliff Young [查看邮件 (https://arxiv.org/show-email/3296a8f2/2606.15870)]
[v1] 2026年6月14日星期日 15:44:31 UTC (2,943 KB)

@JeffDean：我的@Google同事@NormJouppi、Sridhar Lakshmanamurthy、Cliff Young和David Patterson最近撰写了一篇论文，该论文…

Google的训练超级计算机：从TPU v2到Ironwood——跨五代架构的稳定性、规模、弹性、能效与可持续性

提交历史

相似文章

我们的 TPU 如何驱动日益复杂的 AI 工作负载。

第八代 TPU 架构深度解析

第八代TPU：面向智能体时代的双芯片设计

谷歌刚刚发布最新AI芯片

我们推出了两款专为智能体时代打造的专用 TPU。

提交意见反馈