llama-cpp

标签

Cards List
#llama-cpp

这是一个llama.cpp CLI命令构建器。

Reddit r/LocalLLaMA · 20小时前 缓存

一个用于llama.cpp的静态Linux命令构建器,帮助构建CLI命令、运行基准测试并记录结果。

0 人收藏 0 人点赞
#llama-cpp

llama.cpp 中的流水线并行可能浪费你的显存

Reddit r/LocalLLaMA · 21小时前

测试表明,llama.cpp 默认的流水线并行浪费显存且无速度提升;通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存,同时保持相同推理速度。

0 人收藏 0 人点赞
#llama-cpp

[3090] Gemma4 QAT + MTP 快速TPS数据 [TLDR 提升1.2-1.8倍]

Reddit r/LocalLLaMA · 昨天

基准测试结果显示,在24GB RTX 3090 GPU上使用QAT和MTP,Gemma 4模型(12B和26B)的每秒token速度提升了1.2-1.8倍。

0 人收藏 0 人点赞
#llama-cpp

mtmd:由 ngxson 添加视频输入支持 · 拉取请求 #24269 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 昨天 缓存

本拉取请求为 llama.cpp 添加了视频输入支持,使多模态模型能够通过新的 mtmd 组件处理视频数据。

0 人收藏 0 人点赞
#llama-cpp

kv-cache : 避免kv cells复制 by ggerganov · Pull Request #24277 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 昨天 缓存

ggerganov的此pull request优化了llama.cpp中的kv-cache,以避免不必要的kv cells复制,从而提升推理性能。这是对开源LLM推理库llama.cpp的一个贡献。

0 人收藏 0 人点赞
#llama-cpp

@leopardracer: 同一GPU、同一模型、同一上下文,速度翻倍!RTX 4060,Gemma 4 12B,48k上下文,仅切换量化方式从 q4_k_m 到 q4_k_xl…

X AI KOLs Timeline · 昨天 缓存

在 llama.cpp 中,将量化从 q4_k_m 切换为 q4_k_xl,可在相同 GPU(RTX 4060)上使推理速度翻倍,无需更换硬件或驱动,如 Gemma 4 12B 所示。

0 人收藏 0 人点赞
#llama-cpp

@steeve:我们更快了(我知道我知道)

X AI KOLs Following · 昨天 缓存

Steeve Morin 报告称,经过5天的工作,他的实现速度现已与llama.cpp相差不到10%,达到每秒64个token对70个token,还需继续优化。

0 人收藏 0 人点赞
#llama-cpp

MTP 和 QTA 有什么关系?

Reddit r/LocalLLaMA · 2天前

一位用户寻求澄清 llama.cpp 中 MTP(多 token 预测)与 QAT(量化感知训练)之间的关系,特别是关于 Gemma4 模型的 GGUF 兼容性以及文件名中新增的 QAT 字符串。

0 人收藏 0 人点赞
#llama-cpp

@osanseviero: Gemma 4 MTP 现已正式合并到 llama.cpp,这意味着你可以使用 Gemma 4 QAT + MTP 来实现轻量级且超快的…

X AI KOLs Following · 2天前 缓存

Gemma 4 MTP 已合并到 llama.cpp,通过 Gemma 4 QAT 和 MTP 实现轻量且快速的推理。

0 人收藏 0 人点赞
#llama-cpp

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……

X AI KOLs Timeline · 2天前 缓存

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。

0 人收藏 0 人点赞
#llama-cpp

在12GB显存上使用Gemma 4 12B QAT MTP实现120 tok/s

Reddit r/LocalLLaMA · 3天前

Google的Gemma 4 12B QAT模型通过llama.cpp的多令牌预测(MTP)在12GB GPU上达到120 tok/s。本文提供分步指南以及无MTP的基准对比,显示速度提升2倍。

0 人收藏 0 人点赞
#llama-cpp

SYCL: 从 CUDA 后端移植多列 MMVQ(在 Intel Arc 上获得约 45% 的推测解码加速)by masonmilby · Pull Request #21845 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 4天前 缓存

一个针对 llama.cpp 的拉取请求,将多列 MMVQ 从 CUDA 移植到 SYCL,在 Intel Arc GPU 上实现了约 45% 的推测解码加速。

0 人收藏 0 人点赞
#llama-cpp

PSA:Gemma 4 12B 在编程和工具调用方面并非完全不可用,你需要特殊的聊天模板

Reddit r/LocalLLaMA · 4天前

Gemma 4 12B 在工具调用和编程方面存在已知问题,但在 llama.cpp 中使用自定义聊天模板可以解决这些错误。用户应在评估模型的编程能力之前,从源码编译 llama.cpp 并应用此修复。

0 人收藏 0 人点赞
#llama-cpp

我开发了一款 iOS 应用,可以在你的 iPhone/iPad 上对 GGUF 模型进行基准测试

Reddit r/LocalLLaMA · 4天前

GenBench 是一款免费的 iOS 应用,允许用户使用 llama.cpp 和 Metal 在 iPhone/iPad 上下载、运行和基准测试 GGUF 模型,支持离线聊天、标准化基准测试和全球排行榜等功能。

0 人收藏 0 人点赞
#llama-cpp

也许将KV缓存卸载到RAM并不差

Reddit r/LocalLLaMA · 4天前

一位用户分享了在llama.cpp中将KV缓存卸载到RAM的经验,在释放显存以便运行更大模型和上下文窗口的同时,实现了相近的速度,表明这种权衡通常是值得的。

0 人收藏 0 人点赞
#llama-cpp

模型:Granite4 Vision,作者 gabe-l-hart · 拉取请求 #23545 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 4天前 缓存

此拉取请求为 llama.cpp(一个开源 LLM 推理引擎)增加了对 Granite4 Vision 模型的支持。

0 人收藏 0 人点赞
#llama-cpp

Qwen 3.5 122B MoE OC 在单张 3090 上以 35 t/s 运行——完整本地堆栈解析

Reddit r/openclaw · 4天前

在单张 RTX 3090 上使用定制版 llama.cpp(ik_llama.cpp)以 35 t/s 运行 Qwen 3.5 122B MoE 的详细解析,其中采用了融合 MoE 操作和专家层卸载到 CPU 内存的技术,性能显著优于原版 llama.cpp MTP。

0 人收藏 0 人点赞
#llama-cpp

RTX Pro 4500 Blackwell 性能实测

Reddit r/LocalLLaMA · 4天前

一位用户分享了将 Nvidia RTX Pro 4500 Blackwell 32GB GPU 与 RTX 5060 Ti 16GB 进行 AI 推理性能对比的基准测试结果,显示根据模型大小和量化水平,速度提升了 1.6 到 6 倍。

0 人收藏 0 人点赞
#llama-cpp

这是我的 llama.cpp NVFP4/MXFP6 GGUF 量化工具

Reddit r/LocalLLaMA · 4天前

作者介绍了一款开源的 GGUF 量化工具,用于 llama.cpp,能够创建 NVFP4 和 MXFP6 量化模型,并采用 RSF、张量提升、动态量化等先进技术,质量优于现有方法(如 ModelOpt)。

0 人收藏 0 人点赞
#llama-cpp

动态KV缓存量化与按需加载mmproj/MTP:我的llama.cpp愿望清单

Reddit r/LocalLLaMA · 5天前

一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈