AMD BC-250 与低成本计算探索
摘要
一位开发者逆向工程了 AMD BC-250 板卡(回收的 PS5 APU),解锁全部 40 个计算单元,通过自定义 HIP 内核在 LLM 推理中实现了显著的性能提升。该项目展示了低成本 AI 计算的潜力。
自从 MI50 价格飙升以来,我花了好几个月寻找被废弃或低估的计算载体——现在出现了搭载独立板卡的回收 PS5 APU:Zen 2、16 GB 统一 GDDR6、RDNA 2(gfx1013)。它们在 eBay 上售价 50-150 美元,出厂时只启用 40 个 CU 中的 24 个。我产生了好奇,开始阅读 amdgpu 源代码。原来有两个寄存器控制 CU 可用性:
- `CC_GC_SHADER_ARRAY_CONFIG`:告诉驱动有多少 CU 存在
- `SPI_PG_ENABLE_STATIC_WGP_MASK`:告诉着色处理器将工作发往何处
这两个寄存器在驱动初始化路径中都可写入,从而清除硬件寄存器。两者必须同时设置,单独设置任何一个都不起作用:
pp512 数据(Vulkan、llama.cpp):
| 配置 | tok/s | 功率 | 温度 |
|--------|-------|-------|------|
| 24 CU @ 1500 MHz | 230 | 55W | 71C |
| 40 CU @ 1500 MHz | 372 | 125W | 83C |
| 40 CU @ 2 GHz | 466 | 181W | 96C |
我还在为 gfx1013 开发自定义 HIP 内核,因为既没有现成的 HIP 内核,也没有 tensile 中的优化。HIP 在 token 生成上已经击败 Vulkan(9B 模型上 48 vs 30 tok/s),预填充仍然落后但正在缩小差距。Vulkan 后端使用 fp16 FMA 反量化,这很难与 HIP 的 int8 dp4a 路径匹敌,但我们正在构建一个自定义 MMQ 内核,重新组织数据流以匹配 RADV 编译器的工作方式。初步结果很有希望,在 Q6_K 上相比基准 HIP 已经提升了 +63% 的 pp。
仓库:https://github.com/duggasco/bc250-40cu-unlock
如果你有这种板卡,加入 Discord:[discord.gg/8eZfFWhczz](http://www.discord.gg/8eZfFWhczz)
相似文章
AMD的小型AI PC预示着模型推理向本地化未来的转变
AMD的Ryzen AI Max平台配备128GB统一内存,可本地推理高达2000亿参数的大模型,旨在将AI工作负载从云端转移到紧凑的个人硬件上。
@realBigBrainAI: AMD首席执行官Lisa Su发布全球最小AI开发PC,可本地运行200B参数模型。
AMD首席执行官Lisa Su宣布推出一款紧凑型AI开发PC,可本地运行高达200B参数模型。
一家小型公司抢了AMD的风头,凭借采用老旧DDR4和28nm芯片的PCIe AI加速器,以仅240W功耗在本地运行700B参数大模型,向Nvidia发起挑战
台湾初创公司Skymizer发布了HTX301,这是一款PCIe AI加速器,采用较老的28nm芯片和DDR内存,仅需240W功耗即可在本地运行700B参数的大语言模型,对Nvidia和AMD的高功耗GPU解决方案构成挑战。
AMD凭借全新Ryzen AI Halo开发者平台和Ryzen AI Max PRO 400系列处理器驱动下一代智能体计算机
AMD宣布推出用于本地AI开发的Ryzen AI Halo开发者平台(可运行高达200B参数的模型)以及面向商业AI PC的Ryzen AI Max PRO 400系列处理器,可在本地支持智能体AI工作负载。
英特尔新月岛PCB泄露,展示巨大Xe3P GPU、16针接口、160GB LPDDR5X,英特尔规避HBM短缺
泄露的PCB图片显示了英特尔即将推出的Crescent Island AI加速器,配备大型Xe3P GPU和160 GB LPDDR5X内存,旨在作为AI推理中基于HBM的解决方案的经济高效替代方案。