llama.cpp

标签

Cards List
#llama.cpp

server, webui: 支持在推理模型上继续生成,由 ServeurpersoCom · 拉取请求 #22727 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 昨天 缓存

此拉取请求在 llama.cpp 服务器和 WebUI 中添加了对推理模型继续生成的支持。

0 人收藏 0 人点赞
#llama.cpp

如果你只是自己使用模型而不对外提供服务,vLLM 真的值得用吗?

Reddit r/LocalLLaMA · 2天前

一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。

0 人收藏 0 人点赞
#llama.cpp

@pupposandro: https://x.com/pupposandro/status/2054241934164492328

X AI KOLs Timeline · 2天前 缓存

该文章宣布了 llama.cpp 对 AMD Strix Halo 集成 GPU (iGPU) 上的 DFlash 和 PFlash 投机解码的支持,并展示了使用 ROCm 时推理性能的显著提升。

0 人收藏 0 人点赞
#llama.cpp

MTP 基准测试结果:生成任务的性质决定了你是会受益于推测性推理(如编程)还是导致推理变慢(如创意写作)。没有其他因素接近其影响力。

Reddit r/LocalLLaMA · 4天前

对 Qwen 3.6 27B 基准的系统性分析揭示,推测性推理(MTP)显著加速了编程任务,但会减慢创意写作速度,任务类型的影响远超量化或温度设置。

0 人收藏 0 人点赞
#llama.cpp

@mitsuhiko: 如果没有 128GB 内存的 Mac,我还有一个 pi-llamacpp 扩展,仅配置了 4 个版本的 Qwen 3.6。https://...

X AI KOLs Timeline · 5天前 缓存

mitsuhiko 发布了一个 pi-llamacpp 扩展,用于自动化设置和管理基于 llama.cpp 的本地 LLM 推理,特别支持 Qwen 3.6 模型的多种量化版本。

0 人收藏 0 人点赞
#llama.cpp

更多 Qwen3.6-27B MTP 的成功案例,但这次是在双路 Mi50 上

Reddit r/LocalLLaMA · 5天前

本文在双路 Mi50 GPU 上,使用多令牌预测(MTP)和张量并行技术对 Qwen3.6-27B 模型进行了基准测试,展示了通过 llama.cpp 实现的显著加速效果。

0 人收藏 0 人点赞
#llama.cpp

在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA · 5天前

一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞
#llama.cpp

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA · 6天前

开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。

1 人收藏 1 人点赞
#llama.cpp

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

Reddit r/LocalLLaMA · 2026-05-07

作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件,用户可通过显著小于完整模型文件的下载大小来嫁接张量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈