rocm

标签

Cards List
#rocm

@0x0SojalSec: 去他妈的付费课程,掌握AI系统的GPU工程。从基础书籍和CUDA/ROCm编程到低阶…

X AI KOLs Timeline · 2天前 缓存

一份精心整理的资源列表,用于掌握AI系统的GPU工程,涵盖CUDA、ROCm、优化工具、多GPU编排和分布式训练。

0 人收藏 0 人点赞
#rocm

@DanKornas: GPU 工程学领域过于广泛,无法通过零散标签学习。Awesome GPU Engineering 是一个精心整理的 GitHub 资源列表,涵盖……

X AI KOLs Timeline · 6天前 缓存

一个精心整理的 GitHub 资源列表,用于学习 GPU 工程学,涵盖架构、内核编程、优化、分布式系统及 AI 加速,包括书籍、框架、分析工具和面试准备内容。

0 人收藏 0 人点赞
#rocm

AMD Strix Halo RDMA 集群搭建指南

Hacker News Top · 2026-06-28 缓存

一份使用自定义 Docker/Podman 工具箱,借助 ROCm/RCCL RDMA 支持,将两个 AMD Strix Halo 节点集群化,以在 256GB 统一内存上通过张量并行启用 vLLM 的搭建指南。

0 人收藏 0 人点赞
#rocm

既然大语言模型编码这么厉害……

Reddit r/LocalLLaMA · 2026-06-25

讨论为何大语言模型未能帮助ROCm和英特尔的软件生态系统追上CUDA,并指出NVIDIA的高定价和真正市场竞争的必要性。

0 人收藏 0 人点赞
#rocm

AMD / Strix Halo+ 用户的大新闻

Reddit r/LocalLLaMA · 2026-06-24

AMD Strix Halo 设备上的 NPU 现在可用于 AI 推理,支持混合模式,结合 NPU 和 iGPU 以实现更快的提示处理。Lemonade 和 AMD 的 ROCm 等软件使之成为可能。

0 人收藏 0 人点赞
#rocm

ROCm vs Vulkan vs vLLM 在双R9700上的对比

Reddit r/LocalLLaMA · 2026-06-21

对运行在双AMD Radeon 9700 GPU上的AI推理框架ROCm、Vulkan和vLLM进行比较,可能是在对大型语言模型的性能进行基准测试。

0 人收藏 0 人点赞
#rocm

最新eBay特价品基准测试:W6800(改装版V620)

Reddit r/LocalLLaMA · 2026-06-17

一位用户对一款刷入W6800固件并配备定制吹风风扇的改装版AMD V620 GPU进行了基准测试,通过Vulkan和ROCm后端运行大型语言模型,比较了Qwen2.5-27B在不同量化级别下的性能表现。

0 人收藏 0 人点赞
#rocm

@vllm_project: vLLM v0.22.0 发布了!来自 230 位贡献者(63 位新人)的 459 次提交。亮点:DeepSeek V4 加固(NVFP4 融合 MoE,fu…

X AI KOLs Timeline · 2026-05-30 缓存

vLLM v0.22.0 发布,包含 459 次提交,主要特点包括 DeepSeek V4 加固、实验性 Rust 前端、以及批次不变的 Cutlass FP8,端到端延迟降低 28.9%。

0 人收藏 0 人点赞
#rocm

llama.cpp B9387 重大 AMD/ROCm PP 更新

Reddit r/LocalLLaMA · 2026-05-29

llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。

0 人收藏 0 人点赞
#rocm

Strix Halo 用户:一个被拒绝的 PR 可使 MOE 的 PP 速度提升高达 30%。

Reddit r/LocalLLaMA · 2026-05-26

一个针对 llama.cpp 的被拒绝的 PR 可在 AMD Strix Halo 硬件上为 MOE 模型提供高达 30% 的提示处理速度提升,但增益会随上下文长度增加而递减。

0 人收藏 0 人点赞
#rocm

@Italianclownz: 已将 Qwen 3.6 35b a3b 转换为 ROCmfp4,运行飞快。使用了 mtp 版本,因为此 ROCmfp4 也可以融合 MTP 的优势…

X AI KOLs Timeline · 2026-05-24 缓存

将 Qwen 3.6 35b a3b 模型转换为 ROCmfp4 格式,利用 MTP 优势提升 AMD 硬件上的性能。

0 人收藏 0 人点赞
#rocm

@no_stp_on_snek: 如果你想试试,可以在这里找到:

X AI KOLs Following · 2026-05-23 缓存

这是一个 llama.cpp 的分支,集成了 TurboQuant+,用于先进的 KV 缓存和权重量化,支持跨后端内核(Apple Silicon、NVIDIA CUDA、AMD ROCm、Vulkan),并被 LocalAI、Chronara 和 AtomicChat 用于生产环境。

0 人收藏 0 人点赞
#rocm

club-rdna16:实用的16GB AMD/Radeon本地LLM测试仓库

Reddit r/LocalLLaMA · 2026-05-23

该仓库提供了在16GB AMD Radeon GPU上使用基于ROCm/HIP的llama.cpp运行本地大语言模型(LLM)的实用测试配置和基准测试,重点关注上下文长度、KV缓存设置等真实性能指标。

0 人收藏 0 人点赞
#rocm

RDNA2 闪存注意力在官方版本中未启用,我通过这个构建启用了它,速度翻倍

Reddit r/LocalLLaMA · 2026-05-19

自定义二进制解决方案为 llama.cpp 在 AMD RDNA2 GPU 上启用了闪存注意力,推理速度翻倍(70-80 tok/s,而官方版本崩溃)。仅确认与 Qwen3.6 35B/27B 配合使用。

0 人收藏 0 人点赞
#rocm

Lemonade v10.5.1:面向Strix Halo的MTP + ROCm 7.13快速入门指南

Reddit r/LocalLLaMA · 2026-05-18

Lemonade v10.5.1 新增 MTP 支持,为 Strix Halo 提供 ROCm 7.13 快速启动,并修复了 Fedora 43 问题。

0 人收藏 0 人点赞
#rocm

ROCm 7.13 夜间版新增 Strix Halo 优化

Reddit r/LocalLLaMA · 2026-05-17

AMD 的 ROCm 7.13 技术预览版为 Strix Halo(Ryzen AI Max 300)新增优化,并将 ROCprof Trace Decoder 开源。

0 人收藏 0 人点赞
#rocm

Strix Halo ROCm + MTP 笔记 (2026年5月)

Reddit r/LocalLLaMA · 2026-05-17

技术基准测试,比较 ROCm 和 Vulkan 后端在 Strix Halo 硬件上运行 LLM 推理的性能,MTP 合并到 llama.cpp 之后,结果显示 ROCm 在全上下文时性能严重下降,而 Vulkan 保持稳定。

0 人收藏 0 人点赞
#rocm

vllm-project/vllm v0.21.1rc0: [ROCm][CI] Stage B 门控 (#42025)

GitHub Releases Watchlist · 2026-05-15 缓存

vLLM 发布版本 0.21.1rc0,重点关注 ROCm CI 门控改进。

0 人收藏 0 人点赞
#rocm

Linux - 为什么 llama.cpp ROCm 的 KV 缓存消耗比 Vulkan 多那么多显存?

Reddit r/LocalLLaMA · 2026-05-14

一位用户报告称,在使用相同模型和设置的情况下,llama.cpp 的 ROCm 后端比 Vulkan 后端消耗的 KV 缓存显存显著更多,这引发了对其潜在原因的探究。

0 人收藏 0 人点赞
#rocm

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA · 2026-05-14

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈