vLLM ROCm 已作为实验性后端添加到 Lemonade 中。
摘要
Lemonade 为 vLLM 添加了一个实验性的 ROCm 后端,使用户能够通过简单的命令在 AMD GPU 上轻松运行 safetensors 格式的大语言模型。
vLLM 能够运行 .safetensors 格式的 LLM(无需先转换为 GGUF),这是一个值得探索的新引擎。我个人此前从未尝试过它,直到 u/krishna2910-amd/、u/mikkoph 和 u/sa1sr1 使其在 Lemonade 中像运行 llama.cpp 一样简单:
```
lemonade backends install vllm:rocm
lemonade run Qwen3.5-0.8B-vLLM
```
对我们来说,这是一个实验性后端——核心功能已经实现,但已知存在一些不完善之处。我们希望获得社区的反馈,以了解该方向的潜力和推进程度。如果你觉得有趣,请告诉我们你的想法!
快速入门指南:https://lemonade-server.ai/news/vllm-rocm.html
GitHub:https://github.com/lemonade-sdk/lemonade
Discord:https://discord.gg/5xXzkMu8Zk
相似文章
ROCm vs Vulkan vs vLLM 在双R9700上的对比
对运行在双AMD Radeon 9700 GPU上的AI推理框架ROCm、Vulkan和vLLM进行比较,可能是在对大型语言模型的性能进行基准测试。
TurboQuant+MTP在ROCm(Llama CPP)上的实现
一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。
club-rdna16:实用的16GB AMD/Radeon本地LLM测试仓库
该仓库提供了在16GB AMD Radeon GPU上使用基于ROCm/HIP的llama.cpp运行本地大语言模型(LLM)的实用测试配置和基准测试,重点关注上下文长度、KV缓存设置等真实性能指标。
Lemonade v10.7 发布及项目组织更新
Lemonade v10.7 版本引入了 LMX-Omni 虚拟模型,支持全模态聊天;新增 bench CLI 工具,用于跨后端比较 LLM 性能;并扩展了在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 支持。
llama.cpp B9387 重大 AMD/ROCm PP 更新
llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。