标签
此拉取请求在 llama.cpp 服务器和 WebUI 中添加了对推理模型继续生成的支持。
一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。
该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。
对 Qwen 3.6 27B 基准的系统性分析揭示,推测性推理(MTP)显著加速了编程任务,但会减慢创意写作速度,任务类型的影响远超量化或温度设置。
mitsuhiko 发布了一个 pi-llamacpp 扩展,用于自动化设置和管理基于 llama.cpp 的本地 LLM 推理,特别支持 Qwen 3.6 模型的多种量化版本。
本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。
作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件,用户可通过显著小于完整模型文件的下载大小来嫁接张量。