第八代TPU:面向智能体时代的双芯片设计

Hacker News Top 产品

摘要

Google发布第八代TPU:TPU 8t用于训练,TPU 8i用于推理,专为大规模、高能效AI智能体工作负载打造,将于今年晚些时候推出。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 13:13

# 第八代 TPU:为智能体时代而生的两颗芯片 来源:https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/ 十年研发的集大成之作,TPU 8t 与 TPU 8i 专为下一代超算的效率与规模而生。 ## 总体摘要 Google 发布第八代 Tensor 处理器,包含两款专用芯片:TPU 8t 用于超大模型训练,TPU 8i 用于高速推理。两者针对 AI 智能体复杂、迭代的需求量身定制,在能效与性能上实现显著提升。现已可提交申请,为今年晚些时候的正式商用做准备。 摘要由 Google AI 生成,生成式 AI 处于实验阶段。 ## 要点速览 - Google 第八代 TPU——TPU 8t 与 8i——开启 AI 新纪元 - TPU 8t 是训练怪兽,加速复杂模型开发 - TPU 8i 专注低延迟推理,支撑高速协同 AI 智能体 - 两颗芯片均用定制硬件,性能与能效再升级 - 今年晚些时候上线,助您弹性扩展 AI 负载 摘要由 Google AI 生成,生成式 AI 处于实验阶段。 ## 通俗解读 Google 刚刚发布第八代自研 AI 芯片 TPU 8t 与 TPU 8i。它们分别负责训练巨型模型与运行复杂智能体,通过“分工”让 AI 更快、更省电,帮助开发者打造更会推理、更会解决问题的应用。 摘要由 Google AI 生成,生成式 AI 处于实验阶段。 #### 探索其他风格: 计算机芯片 您的浏览器不支持音频播放。 收听文章 内容由 Google AI 生成,生成式 AI 处于实验阶段 \[\[duration\]\] 分钟 ## 正文 今天在 Google Cloud Next 上,我们正式发布第八代自研 Tensor 处理器(TPU),首次推出两款不同架构:TPU 8t 面向训练,TPU 8i 面向推理,即将登陆我们的定制超算,支撑从尖端模型训练、智能体开发到海量推理的一切工作。多年来,TPU 已为 Gemini 等领先基础模型提供算力。第八代双芯将在训练、部署与智能体负载上带来规模、效率与能力的三重飞跃。 在智能体时代,模型需要循环推理、执行多步工作流并从自身行为持续学习,这对基础设施提出全新要求。TPU 8t 与 TPU 8i 与 Google DeepMind 联合设计,专啃最苛刻的 AI 负载,并随模型架构演进无缝扩展。 TPU 在定制数值格式、液冷、定制互连等方面树立了 ML 超算标杆;第八代是十余年创新的集大成。核心洞察依旧:把芯片、网络、软件(含模型架构与应用需求)一起做协同设计,可换来数量级的能效与绝对性能提升。 十年创新终落地,突破已在发生。Citadel Securities 等先锋机构已选择 TPU 驱动其前沿 AI 负载: > Citadel Securities CTO Josh Woods 引言 ## 两颗芯片,各司其职 硬件研发周期远长于软件。每一代 TPU 都必须预判上市时的技术与需求。几年前,我们就预见前沿模型大规模上线后推理需求将激增;随着 AI 智能体崛起,社区需要分别针对训练与部署做专门优化。 TPU 8t 主打超大规模、计算密集型训练,拥有更高算力与扩展带宽;TPU 8i 则配备更大内存带宽,服务极低延迟推理——智能体间大规模协作时,任何微小延迟都会被放大。 当然,两颗芯片均可运行多种负载,但专精化带来显著效率提升。 ## TPU 8t:训练怪兽 TPU 8t 把前沿模型开发周期从“月”缩短到“周”。我们在单 POD 内实现近 3 倍于上代的算力,同时保持最佳能效与有效训练时间,让客户持续领跑行业。 - **极致规模**:单 POD 达 9,600 芯片、2 PB 共享高带宽内存,片间带宽翻倍,提供 121 ExaFlops 算力,让最复杂模型共享统一内存池。 - **最高利用率**:存储访问提速 10 倍,配合 TPUDirect 直送数据,确保端到端资源吃满。 - **近线性扩展**:新发布的 Virgo 网络 + JAX + Pathways 软件,可把百万芯片组成单一逻辑集群,扩展效率接近线性。 除 raw 性能外,TPU 8t 通过一整套 RAS(可靠性、可用性、可维护性)机制实现 >97 % 有效训练时间:实时遥测、自动绕过故障链路、OCS 光路交换零人工干预重配硬件。任何故障、网络卡顿或检查点重启都会浪费宝贵时间,而在前沿训练规模下,每 1% 的差距可能等于数天。 ## TPU 8i:推理引擎 智能体时代,用户提问、委托任务并期待结果。TPU 8i 专为多智能体“蜂群”协同、复杂流式推理而重塑,四项关键创新消除“等待室”效应: - **打破“内存墙”**:288 GB 高带宽内存 + 384 MB on-chip SRAM(3× 上代),把模型活跃工作集完全留在片上。 - **Axion 能效翻倍**:物理 CPU 主机数翻倍,换用自研 Arm 架构 Axion,通过 NUMA 隔离实现整机优化。 - **MoE 模型扩展**:片间互连带宽翻倍至 19.2 Tb/s,新 Boardfly 拓扑把最大网络直径缩短 50%,确保全系统超低延迟。 - **消除滞后**:片上集合通信引擎 CAE 卸载全局操作,片内延迟最高降 5 倍。 综合下来,每美元性能比上代提升 80%,企业可在同等成本下服务近 2× 用户量。 ## 为 Gemini 联合设计,面向所有人开放 第八代 TPU 是我们协同设计哲学的最新体现——每项规格都为攻克 AI 最大难点而生: - Boardfly 拓扑专为当下最强推理模型通信模式设计; - TPU 8i 的 SRAM 容量按生产规模推理模型 KV Cache footprints 定制; - Virgo 网络带宽目标源于万亿参数训练的并行需求。 并且,两颗芯片首次统一跑在 Google 自研 Axion ARM CPU 主机上,实现从主机到加速器的全栈优化。 两大平台原生支持 JAX、MaxText、PyTorch、SGLang、vLLM 等主流框架,提供裸金属访问,无虚拟化开销;开源参考实现(MaxText)与强化学习工具(Tunix)让从原型到生产一键直达。 ## 大规模能效设计 如今数据中心的首要瓶颈往往是电力而非芯片。我们针对整栈做能效优化:集成电源管理可按实时负载动态调功。TPU 8t 与 8i 每瓦性能最高比上代 Ironwood 提升 2 倍。 在 Google,能效是系统级命题:从芯片到机房全链路协同。我们把网络与计算整合到同颗芯片,大幅降低 POD 内数据搬运功耗;机房也与 TPU 联合设计,过去五年单位电力提供的算力已提升 6 倍。 新芯片延续这一轨迹,采用第四代液冷,持续释放风冷无法承受的性能密度。凭借从 Axion 主机到加速器的全栈掌控,我们能做到独立设计无法实现的系统级能效。 ## 智能体时代的基础设施 每一次计算范式转换都需要基础设施突破,智能体时代亦然。自主智能体在“推理-规划-执行-学习”的循环中持续运行,对基础设施提出全新诉求。 TPU 8t 与 TPU 8i 就是我们的答案:两颗专精架构,重新定义 AI 可能——从打造最强模型,到编排蜂群智能体,再到攻克最复杂的推理任务。今年晚些时候,两款芯片将通过 Google AI Hypercomputer 正式商用。Hypercomputer 整合专用硬件(计算、存储、网络)、开源软件(框架、推理引擎)与灵活消费模式(编排、集群管理与交付),提供一站式 AI 超算。 智能体计算将重塑可能。我们诚邀您见证并参与这场变革,立即申请了解更多(https://cloud.google.com/resources/tpu-interest)。 ## 订阅更多 Google 故事 只需再确认一步。 请查收邮件完成订阅。 您已订阅简报。

相似文章

第八代 TPU 架构深度解析

Hacker News Top

Google 发布第八代 TPU 8t 与 TPU 8i,专为大规模预训练与推理设计,集成 SparseCore、原生 FP4,并支持 9,600 芯片级超节点,为世界模型与智能体 AI 提供算力。

谷歌刚刚发布最新AI芯片

Reddit r/artificial

谷歌在 Cloud Next 大会上发布第八代 TPU(8t/8i)与全新 Gemini Enterprise Agent Platform,并透露目前 75% 的新代码由 AI 生成。

2026 年 4 月发布的最新 AI 新闻

Google AI Blog

Google 发布了 2026 年 4 月的主要 AI 更新汇总,包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。