标签
vLLM 发布版本 0.21.1rc0,重点关注 ROCm CI 门控改进。
一位用户报告称,在使用相同模型和设置的情况下,llama.cpp 的 ROCm 后端比 Vulkan 后端消耗的 KV 缓存显存显著更多,这引发了对其潜在原因的探究。
一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。
本文提供了在 AMD Strix Halo 硬件上使用监督微调 (SFT) 和 LoRA 方法微调大语言模型 (LLMs) 的教程,涵盖 Linux 及原生 Windows 环境。
Lemonade 为 vLLM 添加了一个实验性的 ROCm 后端,使用户能够通过简单的命令在 AMD GPU 上轻松运行 safetensors 格式的大语言模型。
作者询问2026年中AMD的ROCm生态系统在AI训练领域的当前可行性,将其与NVIDIA的CUDA进行比较,并询问它是否已达到PyTorch的“开箱即用”阶段。