第八代TPU:面向智能体时代的双芯片设计
摘要
Google发布第八代TPU:TPU 8t用于训练,TPU 8i用于推理,专为大规模、高能效AI智能体工作负载打造,将于今年晚些时候推出。
暂无内容
查看缓存全文
缓存时间: 2026/04/22 13:13
# 第八代 TPU:为智能体时代而生的两颗芯片
来源:https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/
十年研发的集大成之作,TPU 8t 与 TPU 8i 专为下一代超算的效率与规模而生。
## 总体摘要
Google 发布第八代 Tensor 处理器,包含两款专用芯片:TPU 8t 用于超大模型训练,TPU 8i 用于高速推理。两者针对 AI 智能体复杂、迭代的需求量身定制,在能效与性能上实现显著提升。现已可提交申请,为今年晚些时候的正式商用做准备。
摘要由 Google AI 生成,生成式 AI 处于实验阶段。
## 要点速览
- Google 第八代 TPU——TPU 8t 与 8i——开启 AI 新纪元
- TPU 8t 是训练怪兽,加速复杂模型开发
- TPU 8i 专注低延迟推理,支撑高速协同 AI 智能体
- 两颗芯片均用定制硬件,性能与能效再升级
- 今年晚些时候上线,助您弹性扩展 AI 负载
摘要由 Google AI 生成,生成式 AI 处于实验阶段。
## 通俗解读
Google 刚刚发布第八代自研 AI 芯片 TPU 8t 与 TPU 8i。它们分别负责训练巨型模型与运行复杂智能体,通过“分工”让 AI 更快、更省电,帮助开发者打造更会推理、更会解决问题的应用。
摘要由 Google AI 生成,生成式 AI 处于实验阶段。
#### 探索其他风格:
计算机芯片
您的浏览器不支持音频播放。
收听文章
内容由 Google AI 生成,生成式 AI 处于实验阶段
\[\[duration\]\] 分钟
## 正文
今天在 Google Cloud Next 上,我们正式发布第八代自研 Tensor 处理器(TPU),首次推出两款不同架构:TPU 8t 面向训练,TPU 8i 面向推理,即将登陆我们的定制超算,支撑从尖端模型训练、智能体开发到海量推理的一切工作。多年来,TPU 已为 Gemini 等领先基础模型提供算力。第八代双芯将在训练、部署与智能体负载上带来规模、效率与能力的三重飞跃。
在智能体时代,模型需要循环推理、执行多步工作流并从自身行为持续学习,这对基础设施提出全新要求。TPU 8t 与 TPU 8i 与 Google DeepMind 联合设计,专啃最苛刻的 AI 负载,并随模型架构演进无缝扩展。
TPU 在定制数值格式、液冷、定制互连等方面树立了 ML 超算标杆;第八代是十余年创新的集大成。核心洞察依旧:把芯片、网络、软件(含模型架构与应用需求)一起做协同设计,可换来数量级的能效与绝对性能提升。
十年创新终落地,突破已在发生。Citadel Securities 等先锋机构已选择 TPU 驱动其前沿 AI 负载:
> Citadel Securities CTO Josh Woods 引言
## 两颗芯片,各司其职
硬件研发周期远长于软件。每一代 TPU 都必须预判上市时的技术与需求。几年前,我们就预见前沿模型大规模上线后推理需求将激增;随着 AI 智能体崛起,社区需要分别针对训练与部署做专门优化。
TPU 8t 主打超大规模、计算密集型训练,拥有更高算力与扩展带宽;TPU 8i 则配备更大内存带宽,服务极低延迟推理——智能体间大规模协作时,任何微小延迟都会被放大。
当然,两颗芯片均可运行多种负载,但专精化带来显著效率提升。
## TPU 8t:训练怪兽
TPU 8t 把前沿模型开发周期从“月”缩短到“周”。我们在单 POD 内实现近 3 倍于上代的算力,同时保持最佳能效与有效训练时间,让客户持续领跑行业。
- **极致规模**:单 POD 达 9,600 芯片、2 PB 共享高带宽内存,片间带宽翻倍,提供 121 ExaFlops 算力,让最复杂模型共享统一内存池。
- **最高利用率**:存储访问提速 10 倍,配合 TPUDirect 直送数据,确保端到端资源吃满。
- **近线性扩展**:新发布的 Virgo 网络 + JAX + Pathways 软件,可把百万芯片组成单一逻辑集群,扩展效率接近线性。
除 raw 性能外,TPU 8t 通过一整套 RAS(可靠性、可用性、可维护性)机制实现 >97 % 有效训练时间:实时遥测、自动绕过故障链路、OCS 光路交换零人工干预重配硬件。任何故障、网络卡顿或检查点重启都会浪费宝贵时间,而在前沿训练规模下,每 1% 的差距可能等于数天。
## TPU 8i:推理引擎
智能体时代,用户提问、委托任务并期待结果。TPU 8i 专为多智能体“蜂群”协同、复杂流式推理而重塑,四项关键创新消除“等待室”效应:
- **打破“内存墙”**:288 GB 高带宽内存 + 384 MB on-chip SRAM(3× 上代),把模型活跃工作集完全留在片上。
- **Axion 能效翻倍**:物理 CPU 主机数翻倍,换用自研 Arm 架构 Axion,通过 NUMA 隔离实现整机优化。
- **MoE 模型扩展**:片间互连带宽翻倍至 19.2 Tb/s,新 Boardfly 拓扑把最大网络直径缩短 50%,确保全系统超低延迟。
- **消除滞后**:片上集合通信引擎 CAE 卸载全局操作,片内延迟最高降 5 倍。
综合下来,每美元性能比上代提升 80%,企业可在同等成本下服务近 2× 用户量。
## 为 Gemini 联合设计,面向所有人开放
第八代 TPU 是我们协同设计哲学的最新体现——每项规格都为攻克 AI 最大难点而生:
- Boardfly 拓扑专为当下最强推理模型通信模式设计;
- TPU 8i 的 SRAM 容量按生产规模推理模型 KV Cache footprints 定制;
- Virgo 网络带宽目标源于万亿参数训练的并行需求。
并且,两颗芯片首次统一跑在 Google 自研 Axion ARM CPU 主机上,实现从主机到加速器的全栈优化。
两大平台原生支持 JAX、MaxText、PyTorch、SGLang、vLLM 等主流框架,提供裸金属访问,无虚拟化开销;开源参考实现(MaxText)与强化学习工具(Tunix)让从原型到生产一键直达。
## 大规模能效设计
如今数据中心的首要瓶颈往往是电力而非芯片。我们针对整栈做能效优化:集成电源管理可按实时负载动态调功。TPU 8t 与 8i 每瓦性能最高比上代 Ironwood 提升 2 倍。
在 Google,能效是系统级命题:从芯片到机房全链路协同。我们把网络与计算整合到同颗芯片,大幅降低 POD 内数据搬运功耗;机房也与 TPU 联合设计,过去五年单位电力提供的算力已提升 6 倍。
新芯片延续这一轨迹,采用第四代液冷,持续释放风冷无法承受的性能密度。凭借从 Axion 主机到加速器的全栈掌控,我们能做到独立设计无法实现的系统级能效。
## 智能体时代的基础设施
每一次计算范式转换都需要基础设施突破,智能体时代亦然。自主智能体在“推理-规划-执行-学习”的循环中持续运行,对基础设施提出全新诉求。
TPU 8t 与 TPU 8i 就是我们的答案:两颗专精架构,重新定义 AI 可能——从打造最强模型,到编排蜂群智能体,再到攻克最复杂的推理任务。今年晚些时候,两款芯片将通过 Google AI Hypercomputer 正式商用。Hypercomputer 整合专用硬件(计算、存储、网络)、开源软件(框架、推理引擎)与灵活消费模式(编排、集群管理与交付),提供一站式 AI 超算。
智能体计算将重塑可能。我们诚邀您见证并参与这场变革,立即申请了解更多(https://cloud.google.com/resources/tpu-interest)。
## 订阅更多 Google 故事
只需再确认一步。
请查收邮件完成订阅。
您已订阅简报。
相似文章
我们推出了两款专为智能体时代打造的专用 TPU。
谷歌宣布推出两款新型专用 TPU 芯片:TPU 8i 和 TPU 8t,分别旨在优化 AI 智能体的推理能力以及大模型的训练效率。
第八代 TPU 架构深度解析
Google 发布第八代 TPU 8t 与 TPU 8i,专为大规模预训练与推理设计,集成 SparseCore、原生 FP4,并支持 9,600 芯片级超节点,为世界模型与智能体 AI 提供算力。
谷歌刚刚发布最新AI芯片
谷歌在 Cloud Next 大会上发布第八代 TPU(8t/8i)与全新 Gemini Enterprise Agent Platform,并透露目前 75% 的新代码由 AI 生成。
我们的 TPU 如何驱动日益复杂的 AI 工作负载。
Google 介绍了其定制张量处理单元 (TPU) 如何设计以处理庞大的 AI 工作负载,并强调了最新一代 TPU 具备处理 121 exaflops 计算能力的特点。
2026 年 4 月发布的最新 AI 新闻
Google 发布了 2026 年 4 月的主要 AI 更新汇总,包括 Gemma 4 模型、Gemini 企业智能体平台以及在 Cloud Next '26 上宣布的第八代 TPU。