第八代TPU：面向智能体时代的双芯片设计

Hacker News Top 2026/04/22 12:15 产品

摘要

Google发布第八代TPU：TPU 8t用于训练，TPU 8i用于推理，专为大规模、高能效AI智能体工作负载打造，将于今年晚些时候推出。

暂无内容

查看缓存全文

缓存时间: 2026/04/22 13:13

# 第八代 TPU：为智能体时代而生的两颗芯片来源：https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/ 十年研发的集大成之作，TPU 8t 与 TPU 8i 专为下一代超算的效率与规模而生。 ## 总体摘要 Google 发布第八代 Tensor 处理器，包含两款专用芯片：TPU 8t 用于超大模型训练，TPU 8i 用于高速推理。两者针对 AI 智能体复杂、迭代的需求量身定制，在能效与性能上实现显著提升。现已可提交申请，为今年晚些时候的正式商用做准备。摘要由 Google AI 生成，生成式 AI 处于实验阶段。 ## 要点速览 - Google 第八代 TPU——TPU 8t 与 8i——开启 AI 新纪元 - TPU 8t 是训练怪兽，加速复杂模型开发 - TPU 8i 专注低延迟推理，支撑高速协同 AI 智能体 - 两颗芯片均用定制硬件，性能与能效再升级 - 今年晚些时候上线，助您弹性扩展 AI 负载摘要由 Google AI 生成，生成式 AI 处于实验阶段。 ## 通俗解读 Google 刚刚发布第八代自研 AI 芯片 TPU 8t 与 TPU 8i。它们分别负责训练巨型模型与运行复杂智能体，通过“分工”让 AI 更快、更省电，帮助开发者打造更会推理、更会解决问题的应用。摘要由 Google AI 生成，生成式 AI 处于实验阶段。 #### 探索其他风格：计算机芯片您的浏览器不支持音频播放。收听文章内容由 Google AI 生成，生成式 AI 处于实验阶段 \[\[duration\]\] 分钟 ## 正文今天在 Google Cloud Next 上，我们正式发布第八代自研 Tensor 处理器（TPU），首次推出两款不同架构：TPU 8t 面向训练，TPU 8i 面向推理，即将登陆我们的定制超算，支撑从尖端模型训练、智能体开发到海量推理的一切工作。多年来，TPU 已为 Gemini 等领先基础模型提供算力。第八代双芯将在训练、部署与智能体负载上带来规模、效率与能力的三重飞跃。在智能体时代，模型需要循环推理、执行多步工作流并从自身行为持续学习，这对基础设施提出全新要求。TPU 8t 与 TPU 8i 与 Google DeepMind 联合设计，专啃最苛刻的 AI 负载，并随模型架构演进无缝扩展。 TPU 在定制数值格式、液冷、定制互连等方面树立了 ML 超算标杆；第八代是十余年创新的集大成。核心洞察依旧：把芯片、网络、软件（含模型架构与应用需求）一起做协同设计，可换来数量级的能效与绝对性能提升。十年创新终落地，突破已在发生。Citadel Securities 等先锋机构已选择 TPU 驱动其前沿 AI 负载： > Citadel Securities CTO Josh Woods 引言 ## 两颗芯片，各司其职硬件研发周期远长于软件。每一代 TPU 都必须预判上市时的技术与需求。几年前，我们就预见前沿模型大规模上线后推理需求将激增；随着 AI 智能体崛起，社区需要分别针对训练与部署做专门优化。 TPU 8t 主打超大规模、计算密集型训练，拥有更高算力与扩展带宽；TPU 8i 则配备更大内存带宽，服务极低延迟推理——智能体间大规模协作时，任何微小延迟都会被放大。当然，两颗芯片均可运行多种负载，但专精化带来显著效率提升。 ## TPU 8t：训练怪兽 TPU 8t 把前沿模型开发周期从“月”缩短到“周”。我们在单 POD 内实现近 3 倍于上代的算力，同时保持最佳能效与有效训练时间，让客户持续领跑行业。 - **极致规模**：单 POD 达 9,600 芯片、2 PB 共享高带宽内存，片间带宽翻倍，提供 121 ExaFlops 算力，让最复杂模型共享统一内存池。 - **最高利用率**：存储访问提速 10 倍，配合 TPUDirect 直送数据，确保端到端资源吃满。 - **近线性扩展**：新发布的 Virgo 网络 + JAX + Pathways 软件，可把百万芯片组成单一逻辑集群，扩展效率接近线性。除 raw 性能外，TPU 8t 通过一整套 RAS（可靠性、可用性、可维护性）机制实现 >97 % 有效训练时间：实时遥测、自动绕过故障链路、OCS 光路交换零人工干预重配硬件。任何故障、网络卡顿或检查点重启都会浪费宝贵时间，而在前沿训练规模下，每 1% 的差距可能等于数天。 ## TPU 8i：推理引擎智能体时代，用户提问、委托任务并期待结果。TPU 8i 专为多智能体“蜂群”协同、复杂流式推理而重塑，四项关键创新消除“等待室”效应： - **打破“内存墙”**：288 GB 高带宽内存 + 384 MB on-chip SRAM（3× 上代），把模型活跃工作集完全留在片上。 - **Axion 能效翻倍**：物理 CPU 主机数翻倍，换用自研 Arm 架构 Axion，通过 NUMA 隔离实现整机优化。 - **MoE 模型扩展**：片间互连带宽翻倍至 19.2 Tb/s，新 Boardfly 拓扑把最大网络直径缩短 50%，确保全系统超低延迟。 - **消除滞后**：片上集合通信引擎 CAE 卸载全局操作，片内延迟最高降 5 倍。综合下来，每美元性能比上代提升 80%，企业可在同等成本下服务近 2× 用户量。 ## 为 Gemini 联合设计，面向所有人开放第八代 TPU 是我们协同设计哲学的最新体现——每项规格都为攻克 AI 最大难点而生： - Boardfly 拓扑专为当下最强推理模型通信模式设计； - TPU 8i 的 SRAM 容量按生产规模推理模型 KV Cache footprints 定制； - Virgo 网络带宽目标源于万亿参数训练的并行需求。并且，两颗芯片首次统一跑在 Google 自研 Axion ARM CPU 主机上，实现从主机到加速器的全栈优化。两大平台原生支持 JAX、MaxText、PyTorch、SGLang、vLLM 等主流框架，提供裸金属访问，无虚拟化开销；开源参考实现（MaxText）与强化学习工具（Tunix）让从原型到生产一键直达。 ## 大规模能效设计如今数据中心的首要瓶颈往往是电力而非芯片。我们针对整栈做能效优化：集成电源管理可按实时负载动态调功。TPU 8t 与 8i 每瓦性能最高比上代 Ironwood 提升 2 倍。在 Google，能效是系统级命题：从芯片到机房全链路协同。我们把网络与计算整合到同颗芯片，大幅降低 POD 内数据搬运功耗；机房也与 TPU 联合设计，过去五年单位电力提供的算力已提升 6 倍。新芯片延续这一轨迹，采用第四代液冷，持续释放风冷无法承受的性能密度。凭借从 Axion 主机到加速器的全栈掌控，我们能做到独立设计无法实现的系统级能效。 ## 智能体时代的基础设施每一次计算范式转换都需要基础设施突破，智能体时代亦然。自主智能体在“推理-规划-执行-学习”的循环中持续运行，对基础设施提出全新诉求。 TPU 8t 与 TPU 8i 就是我们的答案：两颗专精架构，重新定义 AI 可能——从打造最强模型，到编排蜂群智能体，再到攻克最复杂的推理任务。今年晚些时候，两款芯片将通过 Google AI Hypercomputer 正式商用。Hypercomputer 整合专用硬件（计算、存储、网络）、开源软件（框架、推理引擎）与灵活消费模式（编排、集群管理与交付），提供一站式 AI 超算。智能体计算将重塑可能。我们诚邀您见证并参与这场变革，立即申请了解更多（https://cloud.google.com/resources/tpu-interest）。 ## 订阅更多 Google 故事只需再确认一步。请查收邮件完成订阅。您已订阅简报。

第八代TPU：面向智能体时代的双芯片设计

相似文章

我们推出了两款专为智能体时代打造的专用 TPU。

第八代 TPU 架构深度解析

谷歌刚刚发布最新AI芯片

我们的 TPU 如何驱动日益复杂的 AI 工作负载。

2026 年 4 月发布的最新 AI 新闻

提交意见反馈