vLLM ROCm 已作为实验性后端添加到 Lemonade 中。

Reddit r/LocalLLaMA 工具

摘要

Lemonade 为 vLLM 添加了一个实验性的 ROCm 后端,使用户能够通过简单的命令在 AMD GPU 上轻松运行 safetensors 格式的大语言模型。

vLLM 能够运行 .safetensors 格式的 LLM(无需先转换为 GGUF),这是一个值得探索的新引擎。我个人此前从未尝试过它,直到 u/krishna2910-amd/、u/mikkoph 和 u/sa1sr1 使其在 Lemonade 中像运行 llama.cpp 一样简单: ``` lemonade backends install vllm:rocm lemonade run Qwen3.5-0.8B-vLLM ``` 对我们来说,这是一个实验性后端——核心功能已经实现,但已知存在一些不完善之处。我们希望获得社区的反馈,以了解该方向的潜力和推进程度。如果你觉得有趣,请告诉我们你的想法! 快速入门指南:https://lemonade-server.ai/news/vllm-rocm.html GitHub:https://github.com/lemonade-sdk/lemonade Discord:https://discord.gg/5xXzkMu8Zk
查看原文

相似文章

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。

club-rdna16:实用的16GB AMD/Radeon本地LLM测试仓库

Reddit r/LocalLLaMA

该仓库提供了在16GB AMD Radeon GPU上使用基于ROCm/HIP的llama.cpp运行本地大语言模型(LLM)的实用测试配置和基准测试,重点关注上下文长度、KV缓存设置等真实性能指标。

Lemonade v10.7 发布及项目组织更新

Reddit r/LocalLLaMA

Lemonade v10.7 版本引入了 LMX-Omni 虚拟模型,支持全模态聊天;新增 bench CLI 工具,用于跨后端比较 LLM 性能;并扩展了在 AMD、Apple Silicon、Nvidia 和 Intel 系统上的 GPU 支持。

llama.cpp B9387 重大 AMD/ROCm PP 更新

Reddit r/LocalLLaMA

llama.cpp 版本 b9387 引入了对 AMD CDNA 架构(MI100、MI200、MI300 系列)的 MFMA 支持,提升了数据中心 AMD GPU 上的处理流程性能。