标签
测试表明,llama.cpp 默认的流水线并行浪费显存且无速度提升;通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存,同时保持相同推理速度。
基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。
本拉取请求为 llama.cpp 添加了视频输入支持,使多模态模型能够通过新的 mtmd 组件处理视频数据。
ggerganov的此pull request优化了llama.cpp中的kv-cache,以避免不必要的kv cells复制,从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。
在 llama.cpp 中,将量化从 q4_k_m 切换为 q4_k_xl,可在相同 GPU(RTX 4060)上使推理速度翻倍,无需更换硬件或驱动,如 Gemma 4 12B 所示。
Steeve Morin 报告称,经过5天的工作,他的实现速度现已与llama.cpp相差不到10%,达到每秒64个token对70个token,还需继续优化。
一位用户寻求澄清 llama.cpp 中 MTP(多 token 预测)与 QAT(量化感知训练)之间的关系,特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。
Gemma 4 MTP 已合并到 llama.cpp,通过 Gemma 4 QAT 和 MTP 实现轻量且快速的推理。
Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。
Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。
一个针对 llama.cpp 的拉取请求,将多列 MMVQ 从 CUDA 移植到 SYCL,在 Intel Arc GPU 上实现了约 45% 的推测解码加速。
Gemma 4 12B 在工具调用和编程方面存在已知问题,但在 llama.cpp 中使用自定义聊天模板可以解决这些错误。用户应在评估模型的编程能力之前,从源码编译 llama.cpp 并应用此修复。
GenBench 是一款免费的 iOS 应用,允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型,支持离线聊天、标准化基准测试和全球排行榜等功能。
一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验,在释放显存以便运行更大模型和上下文窗口的同时,实现了相近的速度,表明这种权衡通常是值得的。
此拉取请求为 llama.cpp(一个开源 LLM 推理引擎)增加了对 Granite4 Vision 模型的支持。
在单张 RTX 3090 上使用定制版 llama.cpp(ik_llama.cpp)以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析,其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术,性能显著优于原版 llama.cpp MTP。
一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。
作者介绍了一款开源的 GGUF 量化工具,用于 llama.cpp,能够创建 NVFP4 和 MXFP6 量化模型,并采用 RSF、张量提升、动态量化等先进技术,质量优于现有方法(如 ModelOpt)。
一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。