llama.cpp

#llama.cpp

server, webui: 支持在推理模型上继续生成，由 ServeurpersoCom · 拉取请求 #22727 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 昨天缓存

此拉取请求在 llama.cpp 服务器和 WebUI 中添加了对推理模型继续生成的支持。

0 人收藏 0 人点赞

#llama.cpp

如果你只是自己使用模型而不对外提供服务，vLLM 真的值得用吗？

Reddit r/LocalLLaMA ↗ · 2天前

一名用户讨论了在 AMD 硬件上进行本地单用户推理时，使用 vLLM 与 llama.cpp 之间的权衡，质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。

0 人收藏 0 人点赞

#llama.cpp

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

X AI KOLs Timeline ↗ · 2天前缓存

该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持，并展示了使用 ROCm 时推理性能的显著提升。

0 人收藏 0 人点赞

#llama.cpp

MTP 基准测试结果：生成任务的性质决定了你是会受益于推测性推理（如编程）还是导致推理变慢（如创意写作）。没有其他因素接近其影响力。

Reddit r/LocalLLaMA ↗ · 4天前

对 Qwen 3.6 27B 基准的系统性分析揭示，推测性推理（MTP）显著加速了编程任务，但会减慢创意写作速度，任务类型的影响远超量化或温度设置。

0 人收藏 0 人点赞

#llama.cpp

@mitsuhiko: 如果没有 128GB 内存的 Mac，我还有一个 pi-llamacpp 扩展，仅配置了 4 个版本的 Qwen 3.6。https://...

X AI KOLs Timeline ↗ · 5天前缓存

mitsuhiko 发布了一个 pi-llamacpp 扩展，用于自动化设置和管理基于 llama.cpp 的本地 LLM 推理，特别支持 Qwen 3.6 模型的多种量化版本。

0 人收藏 0 人点赞

#llama.cpp

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 5天前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#llama.cpp

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA ↗ · 6天前

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

1 人收藏 1 人点赞

#llama.cpp

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

Reddit r/LocalLLaMA ↗ · 2026-05-07

作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件，用户可通过显著小于完整模型文件的下载大小来嫁接张量。

0 人收藏 0 人点赞

llama.cpp

server, webui: 支持在推理模型上继续生成，由 ServeurpersoCom · 拉取请求 #22727 · ggml-org/llama.cpp

如果你只是自己使用模型而不对外提供服务，vLLM 真的值得用吗？

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

MTP 基准测试结果：生成任务的性质决定了你是会受益于推测性推理（如编程）还是导致推理变慢（如创意写作）。没有其他因素接近其影响力。

@mitsuhiko: 如果没有 128GB 内存的 Mac，我还有一个 pi-llamacpp 扩展，仅配置了 4 个版本的 Qwen 3.6。https://...

更多 Qwen3.6-27B MTP 的成功案例，但这次是在双路 Mi50 上

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

提交意见反馈