标签
一份精心整理的资源列表,用于掌握AI系统的GPU工程,涵盖CUDA、ROCm、优化工具、多GPU编排和分布式训练。
一个精心整理的 GitHub 资源列表,用于学习 GPU 工程学,涵盖架构、内核编程、优化、分布式系统及 AI 加速,包括书籍、框架、分析工具和面试准备内容。
一份使用自定义 Docker/Podman 工具箱,借助 ROCm/RCCL RDMA 支持,将两个 AMD Strix Halo 节点集群化,以在 256GB 统一内存上通过张量并行启用 vLLM 的搭建指南。
AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理,支持混合模式,结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。
对运行在双AMD Radeon 9700 GPU上的AI推理框架ROCm、Vulkan和vLLM进行比较,可能是在对大型语言模型的性能进行基准测试。
一位用户对一款刷入W6800固件并配备定制吹风风扇的改装版AMD V620 GPU进行了基准测试,通过Vulkan和ROCm后端运行大型语言模型,比较了Qwen2.5-27B在不同量化级别下的性能表现。
vLLM v0.22.0 发布,包含 459 次提交,主要特点包括 DeepSeek V4 加固、实验性 Rust 前端、以及批次不变的 Cutlass FP8,端到端延迟降低 28.9%。
llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。
一个针对 llama.cpp 的被拒绝的 PR 可在 AMD Strix Halo 硬件上为 MOE 模型提供高达 30% 的提示处理速度提升,但增益会随上下文长度增加而递减。
将 Qwen 3.6 35b a3b 模型转换为 ROCmfp4 格式,利用 MTP 优势提升 AMD 硬件上的性能。
这是一个 llama.cpp 的分支,集成了 TurboQuant+,用于先进的 KV 缓存和权重量化,支持跨后端内核(Apple Silicon、NVIDIA CUDA、AMD ROCm、Vulkan),并被 LocalAI、Chronara 和 AtomicChat 用于生产环境。
该仓库提供了在16GB AMD Radeon GPU上使用基于ROCm/HIP的llama.cpp运行本地大语言模型(LLM)的实用测试配置和基准测试,重点关注上下文长度、KV缓存设置等真实性能指标。
自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力,推理速度翻倍(70-80 tok/s,而官方版本崩溃)。仅确认与 Qwen3.6 35B/27B 配合使用。
Lemonade v10.5.1 新增 MTP 支持,为 Strix Halo 提供 ROCm 7.13 快速启动,并修复了 Fedora 43 问题。
AMD 的 ROCm 7.13 技术预览版为 Strix Halo(Ryzen AI Max 300)新增优化,并将 ROCprof Trace Decoder 开源。
技术基准测试,比较 ROCm 和 Vulkan 后端在 Strix Halo 硬件上运行 LLM 推理的性能,MTP 合并到 llama.cpp 之后,结果显示 ROCm 在全上下文时性能严重下降,而 Vulkan 保持稳定。
vLLM 发布版本 0.21.1rc0,重点关注 ROCm CI 门控改进。
一位用户报告称,在使用相同模型和设置的情况下,llama.cpp 的 ROCm 后端比 Vulkan 后端消耗的 KV 缓存显存显著更多,这引发了对其潜在原因的探究。
一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。