Sophon PFG-1：一款单片三维AI ASIC，配备330GB片内DRAM且不使用HBM

Hacker News Top 2026/06/29 01:23 产品

monolithic-3d ai-asic on-die-dram 2d-tmd compute-in-memory training-inference high-bandwidth

摘要

PhantaField 推出 PFG-1 'Sophon' 单片三维AI ASIC，具备330GB片内DRAM和纯数字存内计算，消除了HBM，并可在训练和推理中提供高达4,200 TFLOPS的FP8性能，效率显著高于现有GPU。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/29 02:00

# PhantaField PFG-1 白皮书来源：https://www.phantafield.com/whitepaper **修订版 4.1 · 2026 年 6 月** ## 执行摘要 **PFG-1 "Sophon"** 是一款统一训练与推理的芯片，采用 750 mm²、32 层 2D 过渡金属二硫族化物 (TMD) 单片式 3D (M3D) 平台。权重、梯度和优化器状态存储在片上 2T0C 2D-TMD 增益单元 DRAM 中；由于存储阵列完全可读可写，同一硅芯片可执行 BF16 前向/反向训练过程，并以计算受限的速率提供低批量解码。计算采用**纯数字存内计算 (CIM)**：每个 256×256 DRAM 子阵列瓦片将二进制读出放大器与 8 级加法树配对，由 500 MHz 位串行激活广播驱动。每芯片 131,072 个瓦片，在 7.5 cm² 面积内实现**4,200 TFLOPS FP8** 和 **2,100 TFLOPS BF16**。该芯片基于 28 nm 硅互补金属氧化物半导体 (CMOS) 基础层、32 层 2D-TMD CMOS MAC 堆叠以及单片层间通孔 (MIV) 架构[\[5\]](https://www.phantafield.com/whitepaper#ref-5)[\[6\]](https://www.phantafield.com/whitepaper#ref-6)[\[7\]](https://www.phantafield.com/whitepaper#ref-7) 构建，其中 2T0C DRAM 模块嵌入在每个存储层的后端制程 (BEOL) 金属-3 层。芯片堆叠截面图如**图 1** 所示。图 1 — 芯片堆叠截面图 **PFG-1 "Sophon"****存储** 2T0C 2D-TMD 增益单元 DRAM**计算范式** 纯数字 CIM (读出放大器 + 加法树)**目标负载** 训练 (前向 + 反向 + 优化器) **和** 推理 (解码 + 预填充)**容量** 330 GB**计算能力** 2,100 TFLOPS BF16 (推理模式下 4,200 TFLOPS FP8 / 8,400 TOPS INT8)**每 MAC 能耗** **0.620 pJ** (BF16 前向) / **0.940 pJ** (前向 + 反向) / **0.310 pJ** (FP8 推理)**峰值效率** **3.72 TFLOPS/W** (BF16 训练平均)**每瓦特 token 数** **38.7 tokens/s per W** (80B FP8 解码, 373 W) — 约是 NVIDIA Rubin (R200) 或 AMD Instinct MI455X 在低批量下的 174 倍 (~ 0.22 tokens/s per W, 受 HBM4 限制)**活跃功耗** ≈ 379 W 前向 / ≈ 749 W 反向 (~ 564 W 训练平均); 373 W FP8 解码**80B 模型性能** 训练吞吐 2,406 tokens/s, 能耗 0.23 J/tok; BF16 解码吞吐 7,219 tokens/s (FP8 模式 14,438 tokens/s), 能耗 25.8 mJ/tok**80B + INT4 + 投机解码 (FP8 模式)** **72,188 tokens/s 有效****物料清单** **$8,358** Sophon 完全消除了片外高带宽存储器 (HBM)。对于 80B 参数 BF16 训练，它将权重和一阶优化器状态完全存储在片上，并留出约 10 GB 的激活空间用于梯度检查点的微批次；对于推理，它能够在原生 BF16 下以 **7,219 tokens/s** 或 FP8 模式下以完整的 **14,438 tokens/s** 服务于 80B 模型——这使其成为一个单一的训练即服务部件，可以在训练和服务之间弹性重新分配，而无需更改硬件。与 NVIDIA Rubin (R200) 和 AMD Instinct MI455X（均为 2026 年 HBM4 部件）相比，Sophon 在 80B 批量-1 训练吞吐方面每芯片高出约 **2.7–3.1 倍**，在单流 FP8 解码吞吐方面高出约 **48–53 倍**，因为两款 GPU 在低批量下均受其 HBM4 带宽限制（Rubin 22 TB/s, MI455X 19.6 TB/s）。峰值密集 FLOPS 对 GPU 有利——Sophon BF16 密集 FLOPS 仅约为其峰值的 0.21–0.24 倍——但峰值 FLOPS 在低批量下无济于事，此时权重内存带宽起主导作用。该架构提供了 HBM4 封装约 **191–214 倍**的权重带宽（对比 Rubin 为 191 倍，对比 MI455X 为 214 倍）——这是任何 HBM 路线图都无法弥合的差距（第 7 节）。经济效益直接显现：摩根士丹利估计单个 NVIDIA VR200 (Rubin) NVL72 机架价格约为 **≈ $7.8M**——仅 HBM 内存就约为 $2.0M（占机架的 25.7%，比 GB300 高出 435%）。Sophon 消除了这一开支，硬件物料清单比 Rubin / MI455X 低约 **~ 9.9× / 11.6×**[\[17\]](https://www.phantafield.com/whitepaper#ref-17)。 --- ## 目录 1. 引言与动机 (https://www.phantafield.com/whitepaper#1-introduction--motivation) 2. 架构概述 (https://www.phantafield.com/whitepaper#2-architecture-overview) - A. 平台 (芯片、层、MIV、TMD MAC) - B. PFG-1 "Sophon" — 2T0C DRAM 芯片 - C. 芯片布局与片上系统组织 3. 物理计算 (https://www.phantafield.com/whitepaper#3-physical-calculations) - A. 单元几何与每层密度 - B. 带宽模型 - C. 每 MAC 能耗与功耗包络 - D. 数字 CIM 瓦片物理与 1/N 缩放 4. SPICE 仿真 (https://www.phantafield.com/whitepaper#4-spice-simulation) 5. GPU 架构与 AI 性能 (https://www.phantafield.com/whitepaper#8-gpu-architecture--ai-performance) - A. 推理 - B. 训练 - C. 系统视图 6. 热分析 (https://www.phantafield.com/whitepaper#5-thermal-analysis) 7. 缩放路线图 (https://www.phantafield.com/whitepaper#6-scaling-roadmap) 8. 能量受限的模型规模上限 (https://www.phantafield.com/whitepaper#energy-constrained-model-size-ceiling) - 推理（服务）上限 - 训练上限 9. 经济分析 (https://www.phantafield.com/whitepaper#7-economic-analysis) 10. 太空应用的辐射容限 (https://www.phantafield.com/whitepaper#9-radiation-tolerance-for-space-applications) 11. 验证、风险与未来工作 (https://www.phantafield.com/whitepaper#9-validation-risks--future-work) 12. 参考文献 (https://www.phantafield.com/whitepaper#10-references) 13. 方程附录 (https://www.phantafield.com/whitepaper#11-equations-appendix) --- ## 1. 引言与动机现代 AI 加速器在其必须服务的两种工作负载上面临着存储墙： **推理**是*读主导*的。部署时模型权重固定；每个解码步骤每生成一个 token 读取一次完整权重张量。关键指标是每比特读取能量、空闲泄漏（模型必须在请求之间保持驻留）以及低批量下的权重获取带宽。传统高带宽存储器 (HBM) 在低批量下受带宽限制：每个 token 的 MAC 流量通过约 22 TB/s (Rubin) / 19.6 TB/s (MI455X) 的 HBM4 路径串行化，而 288–432 GB 的 HBM4 子系统在自刷新下消耗约 10–15 W 仅为了保持模型驻留。 **训练**是*读写对称*的。每次前向传递读取权重；每次反向传递写入梯度更新；优化器每一步就地更新权重。就地可写性、低写入能量以及同时容纳权重*和*优化器状态的能力至关重要。非易失性只读存储器无法训练——例如，单层单元 (SLC) 电阻式 RAM 耐久性上限约为 10^6 次循环，而训练一个 80B 模型每个参数需要约 10^10 次写入循环。 **2T0C 2D-TMD 增益单元 DRAM** 用一个单元解决了这两个问题。它利用 TMD 晶体管异常低的关态电流密度（Joff ≈ 10^-15 A/μm = 1 fA/μm 在 28 nm 节点，即每个单元约 0.5 fA），在没有显式存储电容的情况下获得**多秒**的保持时间，从而实现 20 fJ/bit 的就地梯度写入，具有**无限**写入耐久性，刷新开销仅约 0.08 W。由于存储节点在每个周期都可写，同一芯片既可服务于推理，也可进行训练；由于保持时间为秒级，空闲功耗降至约 3 W——这在完全可写的训练芯片上实现了推理级的空闲功耗特性。 PhantaField 的 2D-TMD M3D 平台将此 DRAM 模块集成在每个存储层的 BEOL 金属-3 层，直接位于其 MAC 阵列消耗权重的逻辑层之上。 --- ## 2. 架构概述 ### A. 平台 Sophon 使用以下物理堆叠： | 层 | 功能 | 工艺 | |---|---|---| | **基础层 (Si)** | 控制器、NoC 根节点、主机 I/O、PCIe/NVLink PHY | 28 nm 体硅 CMOS | | **层 1 – 32** | **交错 2D-TMD 堆叠**：32 个逻辑层（MAC 阵列，每层 750 mm²）与 32 个存储层（2T0C DRAM 组，每层 750 mm²）交替排列，形成 32 个逻辑加存储**双联层** | BEOL 2D-TMD (MoS2 n-FET / WSe2 p-FET) 在奇数层 + DRAM 模块在偶数层 | | **顶盖** | Cu / CVD-钻石散热器 | 可选；实现双面冷却 | 总堆叠高度：硅芯片上方约 **~22 μm**（64 层 × 0.35 μm/层）。90 nm 间距的 MIV 网格提供每 mm² 1.23 × 10^8 个可用层间连接位；设计仅占用约每 mm² 5.5 × 10^5 个，留下 > 99% 的 MIV 余量。各层并非在同一层内分割；相反，64 层堆叠以 A/B/A/B... 重复模式**交错专用逻辑层和存储层**。相邻两层形成一个逻辑加存储**双联层**；堆叠包含 32 个这样的双联层： - **逻辑层（32 × 750 mm² = 24,000 mm² 总 MAC 面积）：**奇数索引层上的 2D-TMD CMOS MAC 阵列——MoS2 n-FET 用于 NMOS，WSe2 p-FET 用于 PMOS。密度为 0.175 TFLOPS FP8/mm²（0.0875 TFLOPS BF16/mm²）。时钟频率 1.2 GHz，Vdd = 0.6 V。 - **存储层（32 × 750 mm² = 24,000 mm² 总存储面积）：**偶数索引层上的 2T0C 2D-TMD DRAM，在该层的金属-3 BEOL 制造。每个存储层直接位于其配对的逻辑层上方；亚 100 nm 间距的垂直单片层间通孔 (MIV) 携带位线/字线/读出信号直接从逻辑 MAC 阵列向上进入单元，为每个 MAC 提供其自己的私有垂直端口，用于访问本地权重，且无 NoC 流量。这种交错排列保持了与假设的层内 50/50 分割相同的总面积和容量，同时使每层 MAC 布线面积翻倍，并将 MAC 到单元的信号路径缩短到单个 0.35 μm 的层间距。 **为什么选择 2D TMD？**TMD CMOS (MoS2 / WSe2) 是唯一一种同时提供以下特性的晶体管技术：(1) 在 ≤ 450 °C 下兼容 BEOL 的生长[\[6\]](https://www.phantafield.com/whitepaper#ref-6)；(2) 原子级沟道厚度消除短沟道泄漏[\[1\]](https://www.phantafield.com/whitepaper#ref-1)[\[2\]](https://www.phantafield.com/whitepaper#ref-2)；(3) 电子迁移率 ≥ 120 cm²/V·s[\[4\]](https://www.phantafield.com/whitepaper#ref-4)；(4) 固有的辐射硬度（无埋氧陷阱体积）。至关重要的是，TMD 的关态电流密度 Joff ≈ 10^-15 A/μm (1 fA/μm) 在 28 nm 节点——即对于 0.5 μm 宽的单元晶体管约为 0.5 fA，比相同栅极长度的 Si NMOS 低约 4 个数量级[\[2\]](https://www.phantafield.com/whitepaper#ref-2)[\[3\]](https://www.phantafield.com/whitepaper#ref-3)——这使得 2T0C 单元能够在没有任何存储电容的情况下保持数据**数秒**[\[8\]](https://www.phantafield.com/whitepaper#ref-8)[\[9\]](https://www.phantafield.com/whitepaper#ref-9)，将单元面积保持在 8 F²，而不是传统 1T1C DRAM 所需的约 20 F²。 ### B. PFG-1 "Sophon" — 2T0C DRAM 芯片 Sophon 在每个存储层的金属-3 BEOL 处放置了一个**2T0C 2D-TMD 增益单元 DRAM**（8 F²，1 比特/单元）。单元结构如**图 2** 所示，包括：图 2 — 2T0C 增益单元示意图 - **写入晶体管 (WT)：**一个由写入字线 (WWL) 控制的 TMD nFET，将存储节点充电至 Vdd 或放电至 GND。 - **读取晶体管 (RT)：**一个栅极为存储节点的 TMD nFET；其漏极电流指示存储的比特。 - **存储节点：**RT 的寄生栅极电容（在 28 nm TMD 下约 2.5 fF）加上 WT 漏极的结电容（约 0.5 fF）。无显式金属-绝缘体-金属 (MIM) 或沟槽电容——这就是 2T0C 中的 "0C"。 TMD 关态电流密度 1 fA/μm（对于 0.5 μm 单元晶体管，Ioff ≈ 0.5 fA）给出保持时间 τ = C·Vdd / (2·Ioff) = **1.8 s** 在 25 °C[\[8\]](https://www.phantafield.com/whitepaper#ref-8)[\[9\]](https://www.phantafield.com/whitepaper#ref-9)——参见**方程 3** 和**图 3** 的保持曲线。Sophon 每 **1.0 s** 刷新一次（1.8× 裕量），对于完整的 330 GB 芯片仅消耗约 **0.08 W**（**方程 4**）。保持时间每 10 °C 下降约 2 倍；高于 60 °C 结温时，片上热传感器缩短刷新间隔（在 60 °C 时约 159 ms，在 85 °C 时约 28 ms），即使在热角刷新功率也保持在约 4 W 以下。图 3 — 2T0C 保持时间与温度关系由于存储节点在每个周期都可写，Sophon 支持就地 BF16 梯度累积，具有无限耐久性——这正是训练所需的——而相同的阵列，只读模式下，服务于推理解码循环。该芯片加载模型一次，然后提供服务（推理）或就地更新（训练）；断电的芯片在启动时从片外非易失性内存快速 (NVMe) 重新加载其权重（§11.2）。 --- ### C. 芯片布局与片上系统组织 131,072 个 CIM 瓦片并非平面阵列——它们分布在堆叠的 32 个逻辑层上（§2.A），每层恰好 **4,096 个瓦片**（计算：131,072 ÷ 32）。每个瓦片在其层上占据固定位置，是计算、存储和冗余的原子单元：一个 256×256 权重子阵列（65,536 个权重）馈送到二进制读出放大器和 8 级加法树，具有 500 MHz 的位串行激活广播（BF16 16 周期，FP8 8 周期）。每个瓦片的权重位于其正上方的存储层的 2T0C 单元中（§2.B），因此瓦片在物理上是一个垂直的逻辑加存储柱，而非平面块。因此，一个层是由这些柱组成的 4,096 瓦片网格；完整芯片是 32 个这样的网格，以 0.35 μm 间距堆叠，28 nm 硅基底承载除计算之外的所有东西。 **NoC 是每层二维网格，而非全局结构。**每个逻辑层运行其自己的网格路由器结构，二等分带宽约为 **≈ 290 TB/s**，64 层一起提供 **18,560 TB/s** 聚合带宽（计算：290 × 64）。NoC 上传输的内容被有意最小化：**激活值和部分和**——这些操作数必须在瓦片之间移动，以跨 4,096 瓦片扇入组合成一层的输出。**权重从不触及 NoC。**每个权重通过其瓦片的私有垂直 MIV 端口读取——从单元到其 MAC 的单个层间距跳跃——提供 4.2 PB/s 的瓦片内权重带宽，且无共享总线争用（§2.A）。这是布局中关键的负载不对称性：多拍字节级流量（权重获取）完全保持垂直和本地，因此横向 NoC 仅需承载相对较小的激活/部分和流量。基础层的 **NoC 根节点**将各层网格缝合在一起，并将其桥接到控制器和主机 I/O，但它永远不会出现在权重路径中。每个瓦片还拥有一个用于激活值的**小容量 SRAM 暂存器**。由于 NoC 承载激活值和部分和而非权重，暂存器是瓦片在其中接收其入站激活向量、跨位串行广播累积其部分和片段，并在将出站结果交给网格之前对其进行缓冲的地方。将活跃的激活工作集保存在快速本地 SRAM 中——紧邻加法树，而非 2T0C DRAM——使得广播/累积内部循环完全在瓦片上，并让 1 Hz 刷新率的增益单元 DRAM（§2.B）专门用于权重和 KV 缓存，其访问模式相比之下是读主导且延迟容忍的。 **时钟和电源通过 22 μm 堆叠传递到低电压轨。**逻辑层从基础层时钟根节点通过 MIV 网格向上分布的 **1.2 GHz** 时钟驱动；位串行激活广播在独立的 500 MHz 域上运行。在 **Vdd = 0.6 V** 下工作是使 64 层单片堆叠在热学上可行的关键——动态功耗随 Vdd² 缩放，因此 0.6 V 轨在相同活动下比标称 1.0 V CMOS 轨消耗约 2.8× 更少的能量。代价是电流：在固定功率下，降低电压会提高电源电流，并且该电流必须通过爬升堆叠全高约 22 μm 的电源分配网络 (PDN) 到达每一层。由于设计留出 > 99% 的 MIV 网格未用于信号传输（§2.A），那些空闲通孔可分配给 PDN（计算得出）——并行化——从而将 IR 压降保持在可接受范围内。

Sophon PFG-1：一款单片三维AI ASIC，配备330GB片内DRAM且不使用HBM

相似文章

一家小型公司抢了AMD的风头，凭借采用老旧DDR4和28nm芯片的PCIe AI加速器，以仅240W功耗在本地运行700B参数大模型，向Nvidia发起挑战

AMD的小型AI PC预示着模型推理向本地化未来的转变

@realBigBrainAI: AMD首席执行官Lisa Su发布全球最小AI开发PC，可本地运行200B参数模型。

Computex 2026：英特尔发布Crescent Island GPU，最高配备480GB显存

英特尔新月岛PCB泄露，展示巨大Xe3P GPU、16针接口、160GB LPDDR5X，英特尔规避HBM短缺

提交意见反馈