vLLM ROCm 已作为实验性后端添加到 Lemonade 中。

Reddit r/LocalLLaMA 2026/05/08 18:21 工具

vllm rocm backend experimental lemonade llm-inference

摘要

Lemonade 为 vLLM 添加了一个实验性的 ROCm 后端，使用户能够通过简单的命令在 AMD GPU 上轻松运行 safetensors 格式的大语言模型。

vLLM 能够运行 .safetensors 格式的 LLM（无需先转换为 GGUF），这是一个值得探索的新引擎。我个人此前从未尝试过它，直到 u/krishna2910-amd/、u/mikkoph 和 u/sa1sr1 使其在 Lemonade 中像运行 llama.cpp 一样简单： ``` lemonade backends install vllm:rocm lemonade run Qwen3.5-0.8B-vLLM ``` 对我们来说，这是一个实验性后端——核心功能已经实现，但已知存在一些不完善之处。我们希望获得社区的反馈，以了解该方向的潜力和推进程度。如果你觉得有趣，请告诉我们你的想法！快速入门指南：https://lemonade-server.ai/news/vllm-rocm.html GitHub：https://github.com/lemonade-sdk/lemonade Discord：https://discord.gg/5xXzkMu8Zk

查看原文

vLLM ROCm 已作为实验性后端添加到 Lemonade 中。

相似文章

ROCm vs Vulkan vs vLLM 在双R9700上的对比

TurboQuant+MTP在ROCm(Llama CPP)上的实现

club-rdna16：实用的16GB AMD/Radeon本地LLM测试仓库

Lemonade v10.7 发布及项目组织更新

llama.cpp B9387 重大 AMD/ROCm PP 更新

提交意见反馈