Apple M1 Chip Deep-Dive

Lobsters Hottest 新闻

摘要

本文通过高分辨率显微照片深入分析了Apple M1芯片的内部结构、晶体管布局、内存接口和主要功能块,展示了其在性能与效率上的革命性突破。

<p><a href="https://lobste.rs/s/np6twr/apple_m1_chip_deep_dive">Comments</a></p>
查看原文
查看缓存全文

缓存时间: 2026/05/31 08:18

### TL;DR Apple M1 是一款革命性的 SoC,集成了 160 亿个晶体管,通过精巧的晶片布局和片上封装内存,在性能和效率上树立了新标杆。 ## 从产品设计到芯片设计 苹果一直以产品设计著称,但早在 2010 年 A4 芯片发布时,它就已经迈出了芯片设计公司的第一步。如今,Apple Silicon 不再是营销术语,而是一个成功的故事。与产品设计不同,芯片设计的美感隐藏在 iPhone 或 Mac 内部,难以被看见。通过 Fritzchens Fritz 提供的超高分辨率晶片显微照片,我们可以深入探索 M1 的美丽世界。 ## 拆解 M1 芯片 本视频中的显微照片来自一台 M1 MacBook Air。逻辑板从机箱中取出,M1 封装被拆焊,金属散热器被移除。M1 使用片上封装内存(on-package memory),在芯片旁边、同一封装上有两个 LPDDR4x DRAM 模块。这减少了数据往返距离,提高了效率,也使整体设计更小巧。 接下来,硅晶片从封装基板上剥离。一个有趣的发现是 M1 采用了“嵌入式硅电容器”(embedded silicon capacitor)——图像中可见的微小矩形形状,有助于为芯片上最关键的部分供电。最后,整个硅晶片被逐层研磨,直到晶体管结构显现。 ## 技术规格 M1 采用台积电 N5 工艺节点制造,在 120.4 平方毫米的晶片上包含约 160 亿个晶体管(若算上划片线,总面积增加到 123.14 平方毫米)。作为 SoC,它集成了: - 8 核 CPU(4 个性能核心 + 4 个效率核心) - 8 核 GPU - 16 核 NPU - 系统级缓存(SLC) - 128 位内存接口 - 大量 IO(包括 Thunderbolt) - 媒体引擎和显示引擎 - 数字信号处理器和图像信号处理器 ## 晶片分析策略 高分辨率显微照片带来敬畏与困惑。即使经验丰富,也需要时间消化——我们看到的是一幅由 160 亿个晶体管绘制的图画。一个像素可能包含数千个晶体管。分析时,先从芯片的“海岸线”(边缘)开始,那里放置了所有与外界通信的组件:内存接口和 IO 组件。任何分析都包含一定程度的不确定性。 ### 内存接口 内存接口在芯片的左上、上侧和右侧海岸线上可见。总共有八个 16 位内存 PHY,组合成 128 位宽的内存接口。苹果的内存架构非常节省空间,紧密集成了内存控制功能和 PHY。PHY 提供了互连的实际接触点,延伸到片上封装 DRAM。 ### IO 海岸线 继续沿海岸线向下,在芯片底部左侧角落可发现一个 Display Port PHY,紧邻 Thunderbolt 逻辑。两个 Thunderbolt 3 端口分为两个控制区域和两个 PHY。控制区域还包括一个标准 USB 逻辑块,为端口增加 USB4 功能。 接下来是 PCI-Express 区域,提供五条物理通道。PCIe 用于连接 Wi-Fi/蓝牙模块,在 Mac mini 或 iMac 上处理以太网,并用于穿透支持。Thunderbolt 和 PCIe PHY 的物理实现相同,因为它们都使用高速 SerDes(串行-解串器),苹果对两者采用相同的 SerDes 设计。 PCIe 区域右侧是一个单独的、较小的 USB PHY,接着是一个更重要的区域——苹果专有的 NAND 存储控制器(ANS)。与其他公司不同,苹果的 SSD 只包含原始 NAND 芯片,因为存储控制器位于 SoC 上。ANS 包含约 3.5 MB 的快速 SRAM(用于缓冲和排序数据流),以及一个保存存储加密密钥的 eFuse。即时加密还需要专用的 AES 引擎,因此 ANS 与板载安全逻辑紧密相连。 在 ANS 控制器正下方,可以看到苹果不使用 PCIe 连接 SSD,而是使用并行的双通道 NAND 结构,总共 92 个可见的 IO 焊盘。这是一种直接的并行存储访问,是苹果 SSD 速度飞快的原因之一(如果使用足够多的 NAND 芯片来饱和双通道接口)。 ### 奇特的大型 PHY 集群 NAND 控制器旁边的大型 PHY 集群非常特别——这是苹果专有的相机接口。它不是用于网络摄像头,而是用于大型高分辨率相机集群,类似 iPhone 或 iPad 上的。M1 iPad Pro 是唯一使用这个 PHY 的 M1 产品;在其他所有 M1 设备(MacBook Air/Pro、Mac mini、iMac)上,该区域不工作。苹果为单一产品实现了这个 PHY。 MacBook 或 iMac 上的网络摄像头通过芯片右上角的一个微小 MIPI D-PHY 连接,该 PHY 还读取用于 Face ID 的红外摄像头(在 M1 iPad Pro 上)。 ## 内部大型 IP 块 ### GPU GPU 块面积约 23.26 平方毫米,是 M1 上最大的区域。从晶片左上到中心区域,八个 GPU 核心由共享控制逻辑连接。单个 GPU 核心约 2.48 平方毫米。在一些分档部件中,一个 GPU 核心会被停用(通过 GPU 最左侧的一小簇 eFuse)。 ### 系统级缓存(SLC) SLC 位于 GPU 正下方,作为整个系统的最后一级缓存,可被 CPU、GPU、NPU 等同等地使用。它是连接整个芯片的数据结构中心枢纽。M1 的 SLC 共 8 MB SRAM,分为四个 2 MB 部分。1 MB SRAM 约占用 0.28 平方毫米。 ### CPU P 核心(Firestorm) 大型 P 核心集群位于 SLC 左侧,包含四个 Firestorm 性能核心(两个在上、两个在下),共享二级缓存位于中心。单个 Firestorm 核心约 2.25 平方毫米。P 核心基于 ARMv8 架构,但苹果长期开发内部 ISA 扩展,Apple Silicon 正越来越多地向底层 ARM RISC 架构的独特版本过渡。共享 P 核心二级缓存共 12 MB(比 SLC 大)。P 核心集群还带有一个专用的 AMX 单元(矩阵加速器),用于 AI 计算。P 核心集群总面积 15.42 平方毫米,仅次于 GPU。 ### CPU E 核心(Icestorm) E 核心集群也包含四个核心,但 Icestorm E 核心非常小,每个仅 0.6 平方毫米。所有四个 E 核心共享一个 4 MB 二级缓存,并带有一个自己的 AMX 单元。E 核心集群总大小 5.3 平方毫米,与 P 核心集群的大小差异接近 3 倍。 ### NPU(Apple Neural Engine) NPU 位于 P 核心和 E 核心之间,因引人注目的布局容易识别。所有 16 个核心清晰可见,围绕共享的暂存 RAM。单个 NPU 核心仅 0.21 平方毫米。 ## 未标注的区域 除了上述主要功能块,芯片上还有许多未标注的区域。它们包含:显示合成引擎(驱动显示输出)、媒体引擎(含专用编解码引擎,但 M1 不支持 ProRes)、图像信号处理器和数字信号处理器、通用 IO 根集线器以及大量数据路径逻辑。 一些猜测指出,右上角与 GPU 接壤的大型镜像集群可能包含显示合成引擎,音频处理也发生在该区域。再往下可能是图像信号处理器和视频编解码器区域。这些标注基于或多或少有依据的猜测,不同分析者可能得出不同结论。通过比较 M1 Pro/Max 的晶片显微照片,或在测试特定功能时查看芯片的实时热图,可以更清晰地识别各模块。 ## 总结 Apple M1 是一场革命,它不仅表明苹果能够设计出笔记本电脑级别的芯片,而且在性能和效率上超越竞争对手。M1 让 Apple Silicon 成为黄金标准,扩展了苹果的形象——从产品设计公司变成芯片设计巨头。随后的 M 系列世代进一步巩固这一地位,如今 Apple Silicon 本身已是一个品牌,成为苹果的一部分。 本文章基于 Fritzchens Fritz 提供的晶片显微照片,是 Apple Silicon 芯片深度探索系列的第一部。 **Source: [Apple M1 Chip Deep-Dive](https://www.youtube.com/watch?v=mHEWMiHgyU8)**

相似文章

@berryxia: Apple 一直其实在赌端侧模型的应用! 统一架构内存就是端侧模型的天然温床! 统一内存也就是,内存即显存。 也看到越来越多的优秀端侧模型出现。 OpenBMB 把 MiniCPM-V 4.6 这个 1.3B 的多模态模型放出来了,我看完…

X AI KOLs Timeline

OpenBMB 发布了 MiniCPM-V 4.6,一个 1.3B 参数的多模态模型,通过高分辨率视觉处理和高效压缩技术,在消费级硬件和手机上实现快速推理,性能超过同类大模型,且全面开源支持多种推理和量化框架。

苹果发布全新 Apple Silicon 端侧推理引擎

Reddit r/LocalLLaMA

苹果在 WWDC 上发布了 CoreAI,这是一款适用于 Apple Silicon 的全新端侧推理引擎,将取代 CoreML,并通过优化推理支持多达 200 亿参数的更大模型,重点面向手机和平板设备。