Sophon PFG-1:一款单片三维AI ASIC,配备330GB片内DRAM且不使用HBM

Hacker News Top 产品

摘要

PhantaField 推出 PFG-1 'Sophon' 单片三维AI ASIC,具备330GB片内DRAM和纯数字存内计算,消除了HBM,并可在训练和推理中提供高达4,200 TFLOPS的FP8性能,效率显著高于现有GPU。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/29 02:00

# PhantaField PFG-1 白皮书 来源:https://www.phantafield.com/whitepaper **修订版 4.1 · 2026 年 6 月** ## 执行摘要 **PFG-1 "Sophon"** 是一款统一训练与推理的芯片,采用 750 mm²、32 层 2D 过渡金属二硫族化物 (TMD) 单片式 3D (M3D) 平台。权重、梯度和优化器状态存储在片上 2T0C 2D-TMD 增益单元 DRAM 中;由于存储阵列完全可读可写,同一硅芯片可执行 BF16 前向/反向训练过程,并以计算受限的速率提供低批量解码。 计算采用**纯数字存内计算 (CIM)**:每个 256×256 DRAM 子阵列瓦片将二进制读出放大器与 8 级加法树配对,由 500 MHz 位串行激活广播驱动。每芯片 131,072 个瓦片,在 7.5 cm² 面积内实现**4,200 TFLOPS FP8** 和 **2,100 TFLOPS BF16**。 该芯片基于 28 nm 硅互补金属氧化物半导体 (CMOS) 基础层、32 层 2D-TMD CMOS MAC 堆叠以及单片层间通孔 (MIV) 架构[\[5\]](https://www.phantafield.com/whitepaper#ref-5)[\[6\]](https://www.phantafield.com/whitepaper#ref-6)[\[7\]](https://www.phantafield.com/whitepaper#ref-7) 构建,其中 2T0C DRAM 模块嵌入在每个存储层的后端制程 (BEOL) 金属-3 层。芯片堆叠截面图如**图 1** 所示。 图 1 — 芯片堆叠截面图 **PFG-1 "Sophon"****存储** 2T0C 2D-TMD 增益单元 DRAM**计算范式** 纯数字 CIM (读出放大器 + 加法树)**目标负载** 训练 (前向 + 反向 + 优化器) **和** 推理 (解码 + 预填充)**容量** 330 GB**计算能力** 2,100 TFLOPS BF16 (推理模式下 4,200 TFLOPS FP8 / 8,400 TOPS INT8)**每 MAC 能耗** **0.620 pJ** (BF16 前向) / **0.940 pJ** (前向 + 反向) / **0.310 pJ** (FP8 推理)**峰值效率** **3.72 TFLOPS/W** (BF16 训练平均)**每瓦特 token 数** **38.7 tokens/s per W** (80B FP8 解码, 373 W) — 约是 NVIDIA Rubin (R200) 或 AMD Instinct MI455X 在低批量下的 174 倍 (~ 0.22 tokens/s per W, 受 HBM4 限制)**活跃功耗** ≈ 379 W 前向 / ≈ 749 W 反向 (~ 564 W 训练平均); 373 W FP8 解码**80B 模型性能** 训练吞吐 2,406 tokens/s, 能耗 0.23 J/tok; BF16 解码吞吐 7,219 tokens/s (FP8 模式 14,438 tokens/s), 能耗 25.8 mJ/tok**80B + INT4 + 投机解码 (FP8 模式)** **72,188 tokens/s 有效****物料清单** **$8,358** Sophon 完全消除了片外高带宽存储器 (HBM)。对于 80B 参数 BF16 训练,它将权重和一阶优化器状态完全存储在片上,并留出约 10 GB 的激活空间用于梯度检查点的微批次;对于推理,它能够在原生 BF16 下以 **7,219 tokens/s** 或 FP8 模式下以完整的 **14,438 tokens/s** 服务于 80B 模型——这使其成为一个单一的训练即服务部件,可以在训练和服务之间弹性重新分配,而无需更改硬件。与 NVIDIA Rubin (R200) 和 AMD Instinct MI455X(均为 2026 年 HBM4 部件)相比,Sophon 在 80B 批量-1 训练吞吐方面每芯片高出约 **2.7–3.1 倍**,在单流 FP8 解码吞吐方面高出约 **48–53 倍**,因为两款 GPU 在低批量下均受其 HBM4 带宽限制(Rubin 22 TB/s, MI455X 19.6 TB/s)。峰值密集 FLOPS 对 GPU 有利——Sophon BF16 密集 FLOPS 仅约为其峰值的 0.21–0.24 倍——但峰值 FLOPS 在低批量下无济于事,此时权重内存带宽起主导作用。 该架构提供了 HBM4 封装约 **191–214 倍**的权重带宽(对比 Rubin 为 191 倍,对比 MI455X 为 214 倍)——这是任何 HBM 路线图都无法弥合的差距(第 7 节)。 经济效益直接显现:摩根士丹利估计单个 NVIDIA VR200 (Rubin) NVL72 机架价格约为 **≈ $7.8M**——仅 HBM 内存就约为 $2.0M(占机架的 25.7%,比 GB300 高出 435%)。Sophon 消除了这一开支,硬件物料清单比 Rubin / MI455X 低约 **~ 9.9× / 11.6×**[\[17\]](https://www.phantafield.com/whitepaper#ref-17)。 --- ## 目录 1. 引言与动机 (https://www.phantafield.com/whitepaper#1-introduction--motivation) 2. 架构概述 (https://www.phantafield.com/whitepaper#2-architecture-overview) - A. 平台 (芯片、层、MIV、TMD MAC) - B. PFG-1 "Sophon" — 2T0C DRAM 芯片 - C. 芯片布局与片上系统组织 3. 物理计算 (https://www.phantafield.com/whitepaper#3-physical-calculations) - A. 单元几何与每层密度 - B. 带宽模型 - C. 每 MAC 能耗与功耗包络 - D. 数字 CIM 瓦片物理与 1/N 缩放 4. SPICE 仿真 (https://www.phantafield.com/whitepaper#4-spice-simulation) 5. GPU 架构与 AI 性能 (https://www.phantafield.com/whitepaper#8-gpu-architecture--ai-performance) - A. 推理 - B. 训练 - C. 系统视图 6. 热分析 (https://www.phantafield.com/whitepaper#5-thermal-analysis) 7. 缩放路线图 (https://www.phantafield.com/whitepaper#6-scaling-roadmap) 8. 能量受限的模型规模上限 (https://www.phantafield.com/whitepaper#energy-constrained-model-size-ceiling) - 推理(服务)上限 - 训练上限 9. 经济分析 (https://www.phantafield.com/whitepaper#7-economic-analysis) 10. 太空应用的辐射容限 (https://www.phantafield.com/whitepaper#9-radiation-tolerance-for-space-applications) 11. 验证、风险与未来工作 (https://www.phantafield.com/whitepaper#9-validation-risks--future-work) 12. 参考文献 (https://www.phantafield.com/whitepaper#10-references) 13. 方程附录 (https://www.phantafield.com/whitepaper#11-equations-appendix) --- ## 1. 引言与动机 现代 AI 加速器在其必须服务的两种工作负载上面临着存储墙: **推理**是*读主导*的。部署时模型权重固定;每个解码步骤每生成一个 token 读取一次完整权重张量。关键指标是每比特读取能量、空闲泄漏(模型必须在请求之间保持驻留)以及低批量下的权重获取带宽。传统高带宽存储器 (HBM) 在低批量下受带宽限制:每个 token 的 MAC 流量通过约 22 TB/s (Rubin) / 19.6 TB/s (MI455X) 的 HBM4 路径串行化,而 288–432 GB 的 HBM4 子系统在自刷新下消耗约 10–15 W 仅为了保持模型驻留。 **训练**是*读写对称*的。每次前向传递读取权重;每次反向传递写入梯度更新;优化器每一步就地更新权重。就地可写性、低写入能量以及同时容纳权重*和*优化器状态的能力至关重要。非易失性只读存储器无法训练——例如,单层单元 (SLC) 电阻式 RAM 耐久性上限约为 10^6 次循环,而训练一个 80B 模型每个参数需要约 10^10 次写入循环。 **2T0C 2D-TMD 增益单元 DRAM** 用一个单元解决了这两个问题。它利用 TMD 晶体管异常低的关态电流密度(Joff ≈ 10^-15 A/μm = 1 fA/μm 在 28 nm 节点,即每个单元约 0.5 fA),在没有显式存储电容的情况下获得**多秒**的保持时间,从而实现 20 fJ/bit 的就地梯度写入,具有**无限**写入耐久性,刷新开销仅约 0.08 W。由于存储节点在每个周期都可写,同一芯片既可服务于推理,也可进行训练;由于保持时间为秒级,空闲功耗降至约 3 W——这在完全可写的训练芯片上实现了推理级的空闲功耗特性。 PhantaField 的 2D-TMD M3D 平台将此 DRAM 模块集成在每个存储层的 BEOL 金属-3 层,直接位于其 MAC 阵列消耗权重的逻辑层之上。 --- ## 2. 架构概述 ### A. 平台 Sophon 使用以下物理堆叠: | 层 | 功能 | 工艺 | |---|---|---| | **基础层 (Si)** | 控制器、NoC 根节点、主机 I/O、PCIe/NVLink PHY | 28 nm 体硅 CMOS | | **层 1 – 32** | **交错 2D-TMD 堆叠**:32 个逻辑层(MAC 阵列,每层 750 mm²)与 32 个存储层(2T0C DRAM 组,每层 750 mm²)交替排列,形成 32 个逻辑加存储**双联层** | BEOL 2D-TMD (MoS2 n-FET / WSe2 p-FET) 在奇数层 + DRAM 模块在偶数层 | | **顶盖** | Cu / CVD-钻石散热器 | 可选;实现双面冷却 | 总堆叠高度:硅芯片上方约 **~22 μm**(64 层 × 0.35 μm/层)。90 nm 间距的 MIV 网格提供每 mm² 1.23 × 10^8 个可用层间连接位;设计仅占用约每 mm² 5.5 × 10^5 个,留下 > 99% 的 MIV 余量。 各层并非在同一层内分割;相反,64 层堆叠以 A/B/A/B... 重复模式**交错专用逻辑层和存储层**。相邻两层形成一个逻辑加存储**双联层**;堆叠包含 32 个这样的双联层: - **逻辑层(32 × 750 mm² = 24,000 mm² 总 MAC 面积):**奇数索引层上的 2D-TMD CMOS MAC 阵列——MoS2 n-FET 用于 NMOS,WSe2 p-FET 用于 PMOS。密度为 0.175 TFLOPS FP8/mm²(0.0875 TFLOPS BF16/mm²)。时钟频率 1.2 GHz,Vdd = 0.6 V。 - **存储层(32 × 750 mm² = 24,000 mm² 总存储面积):**偶数索引层上的 2T0C 2D-TMD DRAM,在该层的金属-3 BEOL 制造。每个存储层直接位于其配对的逻辑层上方;亚 100 nm 间距的垂直单片层间通孔 (MIV) 携带位线/字线/读出信号直接从逻辑 MAC 阵列向上进入单元,为每个 MAC 提供其自己的私有垂直端口,用于访问本地权重,且无 NoC 流量。这种交错排列保持了与假设的层内 50/50 分割相同的总面积和容量,同时使每层 MAC 布线面积翻倍,并将 MAC 到单元的信号路径缩短到单个 0.35 μm 的层间距。 **为什么选择 2D TMD?**TMD CMOS (MoS2 / WSe2) 是唯一一种同时提供以下特性的晶体管技术:(1) 在 ≤ 450 °C 下兼容 BEOL 的生长[\[6\]](https://www.phantafield.com/whitepaper#ref-6);(2) 原子级沟道厚度消除短沟道泄漏[\[1\]](https://www.phantafield.com/whitepaper#ref-1)[\[2\]](https://www.phantafield.com/whitepaper#ref-2);(3) 电子迁移率 ≥ 120 cm²/V·s[\[4\]](https://www.phantafield.com/whitepaper#ref-4);(4) 固有的辐射硬度(无埋氧陷阱体积)。至关重要的是,TMD 的关态电流密度 Joff ≈ 10^-15 A/μm (1 fA/μm) 在 28 nm 节点——即对于 0.5 μm 宽的单元晶体管约为 0.5 fA,比相同栅极长度的 Si NMOS 低约 4 个数量级[\[2\]](https://www.phantafield.com/whitepaper#ref-2)[\[3\]](https://www.phantafield.com/whitepaper#ref-3)——这使得 2T0C 单元能够在没有任何存储电容的情况下保持数据**数秒**[\[8\]](https://www.phantafield.com/whitepaper#ref-8)[\[9\]](https://www.phantafield.com/whitepaper#ref-9),将单元面积保持在 8 F²,而不是传统 1T1C DRAM 所需的约 20 F²。 ### B. PFG-1 "Sophon" — 2T0C DRAM 芯片 Sophon 在每个存储层的金属-3 BEOL 处放置了一个**2T0C 2D-TMD 增益单元 DRAM**(8 F²,1 比特/单元)。单元结构如**图 2** 所示,包括: 图 2 — 2T0C 增益单元示意图 - **写入晶体管 (WT):**一个由写入字线 (WWL) 控制的 TMD nFET,将存储节点充电至 Vdd 或放电至 GND。 - **读取晶体管 (RT):**一个栅极为存储节点的 TMD nFET;其漏极电流指示存储的比特。 - **存储节点:**RT 的寄生栅极电容(在 28 nm TMD 下约 2.5 fF)加上 WT 漏极的结电容(约 0.5 fF)。无显式金属-绝缘体-金属 (MIM) 或沟槽电容——这就是 2T0C 中的 "0C"。 TMD 关态电流密度 1 fA/μm(对于 0.5 μm 单元晶体管,Ioff ≈ 0.5 fA)给出保持时间 τ = C·Vdd / (2·Ioff) = **1.8 s** 在 25 °C[\[8\]](https://www.phantafield.com/whitepaper#ref-8)[\[9\]](https://www.phantafield.com/whitepaper#ref-9)——参见**方程 3** 和**图 3** 的保持曲线。Sophon 每 **1.0 s** 刷新一次(1.8× 裕量),对于完整的 330 GB 芯片仅消耗约 **0.08 W**(**方程 4**)。保持时间每 10 °C 下降约 2 倍;高于 60 °C 结温时,片上热传感器缩短刷新间隔(在 60 °C 时约 159 ms,在 85 °C 时约 28 ms),即使在热角刷新功率也保持在约 4 W 以下。 图 3 — 2T0C 保持时间与温度关系 由于存储节点在每个周期都可写,Sophon 支持就地 BF16 梯度累积,具有无限耐久性——这正是训练所需的——而相同的阵列,只读模式下,服务于推理解码循环。该芯片加载模型一次,然后提供服务(推理)或就地更新(训练);断电的芯片在启动时从片外非易失性内存快速 (NVMe) 重新加载其权重(§11.2)。 --- ### C. 芯片布局与片上系统组织 131,072 个 CIM 瓦片并非平面阵列——它们分布在堆叠的 32 个逻辑层上(§2.A),每层恰好 **4,096 个瓦片**(计算:131,072 ÷ 32)。每个瓦片在其层上占据固定位置,是计算、存储和冗余的原子单元:一个 256×256 权重子阵列(65,536 个权重)馈送到二进制读出放大器和 8 级加法树,具有 500 MHz 的位串行激活广播(BF16 16 周期,FP8 8 周期)。每个瓦片的权重位于其正上方的存储层的 2T0C 单元中(§2.B),因此瓦片在物理上是一个垂直的逻辑加存储柱,而非平面块。因此,一个层是由这些柱组成的 4,096 瓦片网格;完整芯片是 32 个这样的网格,以 0.35 μm 间距堆叠,28 nm 硅基底承载除计算之外的所有东西。 **NoC 是每层二维网格,而非全局结构。**每个逻辑层运行其自己的网格路由器结构,二等分带宽约为 **≈ 290 TB/s**,64 层一起提供 **18,560 TB/s** 聚合带宽(计算:290 × 64)。NoC 上传输的内容被有意最小化:**激活值和部分和**——这些操作数必须在瓦片之间移动,以跨 4,096 瓦片扇入组合成一层的输出。**权重从不触及 NoC。**每个权重通过其瓦片的私有垂直 MIV 端口读取——从单元到其 MAC 的单个层间距跳跃——提供 4.2 PB/s 的瓦片内权重带宽,且无共享总线争用(§2.A)。这是布局中关键的负载不对称性:多拍字节级流量(权重获取)完全保持垂直和本地,因此横向 NoC 仅需承载相对较小的激活/部分和流量。基础层的 **NoC 根节点**将各层网格缝合在一起,并将其桥接到控制器和主机 I/O,但它永远不会出现在权重路径中。 每个瓦片还拥有一个用于激活值的**小容量 SRAM 暂存器**。由于 NoC 承载激活值和部分和而非权重,暂存器是瓦片在其中接收其入站激活向量、跨位串行广播累积其部分和片段,并在将出站结果交给网格之前对其进行缓冲的地方。将活跃的激活工作集保存在快速本地 SRAM 中——紧邻加法树,而非 2T0C DRAM——使得广播/累积内部循环完全在瓦片上,并让 1 Hz 刷新率的增益单元 DRAM(§2.B)专门用于权重和 KV 缓存,其访问模式相比之下是读主导且延迟容忍的。 **时钟和电源通过 22 μm 堆叠传递到低电压轨。**逻辑层从基础层时钟根节点通过 MIV 网格向上分布的 **1.2 GHz** 时钟驱动;位串行激活广播在独立的 500 MHz 域上运行。在 **Vdd = 0.6 V** 下工作是使 64 层单片堆叠在热学上可行的关键——动态功耗随 Vdd² 缩放,因此 0.6 V 轨在相同活动下比标称 1.0 V CMOS 轨消耗约 2.8× 更少的能量。代价是电流:在固定功率下,降低电压会提高电源电流,并且该电流必须通过爬升堆叠全高约 22 μm 的电源分配网络 (PDN) 到达每一层。由于设计留出 > 99% 的 MIV 网格未用于信号传输(§2.A),那些空闲通孔可分配给 PDN(计算得出)——并行化——从而将 IR 压降保持在可接受范围内。

相似文章