llama-cpp

标签

Cards List
#llama-cpp

llama.cpp 更新 - granite-speech-4.1-2b, LFM2.5-ColBERT/Embedding-350M, Vulkan 后端相关变更及其他事项

Reddit r/LocalLLaMA · 1小时前

llama.cpp 新增对 granite-speech-4.1-2b 和 LFM 嵌入模型的支持,引入了多项 Vulkan 后端增强功能(例如 CONV_3D、规范常量、溢出修复),并包含 UI/UX 改进和其他修复。

0 人收藏 0 人点赞
#llama-cpp

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型!

Reddit r/LocalLLaMA · 昨天

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换,可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞
#llama-cpp

Qt Creator 20 与本地 AI

Reddit r/LocalLLaMA · 昨天 缓存

Qt Creator 20 现在通过 Agent Client Protocol 支持本地 AI 编码助手,可以集成在消费级硬件上运行的开源权重模型(如 GPT-OSS 和 Gemma 4)。

0 人收藏 0 人点赞
#llama-cpp

Gemma4-12B-QAT Uncensored Balanced 现已发布,支持 MTP(约 60% 速度提升)!

Reddit r/LocalLLaMA · 昨天

Gemma4-12B-QAT Uncensored Balanced 发布,这是一个经过微调的无审查模型,配备多 token 预测草案头,可实现约 60% 更快的推测解码,针对 llama.cpp 优化,并支持视觉功能。

0 人收藏 0 人点赞
#llama-cpp

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果,显示在 8k 上下文中预填充速度高达 579 t/s,解码速度约为 10.6 t/s。

0 人收藏 0 人点赞
#llama-cpp

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA · 昨天

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南:比较两个 llama.cpp 分支及量化方法,以达到最佳速度与质量。

0 人收藏 0 人点赞
#llama-cpp

本地LLM推理优化:完整指南

Reddit r/LocalLLaMA · 2天前 缓存

一份关于在消费级硬件上优化本地LLM推理的全面指南,涵盖llama.cpp、vLLM和LM Studio等工具,并提供关于内存层次结构、层放置和常见故障模式的实用建议。

0 人收藏 0 人点赞
#llama-cpp

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈? - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following · 2天前 缓存

不同硬件上推理引擎性能对比:在2x RTX 3090s上从基线迁移到TP=2的vLLM,性能从~14.5 tok/s提升至~64 tok/s;在RTX PRO 6000上迁移到Sglang,性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang,在边缘设备使用llama.cpp。

0 人收藏 0 人点赞
#llama-cpp

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA · 2天前

本文介绍了本地视觉语言模型基准测试的第二次更新,比较了23个模型在30张图像上的表现(使用修订设置),并为不同VRAM层级提供了性能建议。主要发现包括:推理模式会损害视觉性能,且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞
#llama-cpp

双Radeon R9700——在llama.cpp上运行Qwen 3.6 27B Q8 MTP

Reddit r/LocalLLaMA · 2天前

关于在使用ROCm的llama.cpp上,于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告,包括性能基准测试和配置详情。

0 人收藏 0 人点赞
#llama-cpp

@analogalok: gemma-4-12B-agentic-fable5-composer2.5 V2 已发布。对基于 Fable 5 推理训练的模型进行了智能体升级。运行…

X AI KOLs Timeline · 3天前 缓存

Gemma 4 12B 的一个新微调版本,基于 Fable 5 的推理进行训练,在智能体编码基准测试中实现了显著提升(从15%到55%),并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。

0 人收藏 0 人点赞
#llama-cpp

7900XTX 24GB 显存,终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

Reddit r/LocalLLaMA · 4天前

在 AMD 7900XTX 上优化显存使用的指南,通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp,并使用 q5_0/q4_0 的 KVCache 量化,以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。

0 人收藏 0 人点赞
#llama-cpp

GLM-5.2 现在可以在 llama.cpp 和 Unsloth Studio 中本地运行。

Reddit r/LocalLLaMA · 5天前

GLM-5.2 现已支持通过 llama.cpp 和 Unsloth Studio 本地运行。

0 人收藏 0 人点赞
#llama-cpp

llama.cpp 现在通过API支持模型管理(下载等)

Reddit r/LocalLLaMA · 6天前

llama.cpp 现在通过API支持模型管理,包括下载和生命周期管理,无需外部工具即可完全部署。

0 人收藏 0 人点赞
#llama-cpp

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA · 6天前

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子,例如将mmproj卸载到CPU、调整KV缓存类型,同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞
#llama-cpp

@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline · 6天前 缓存

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

0 人收藏 0 人点赞
#llama-cpp

本地模型从几乎无用迅速变得真正有用。是什么发生了变化?

Reddit r/LocalLLaMA · 2026-06-17

文章指出,过去一年中,本地AI模型变得显著更有用,从玩具变成了编程和工作流程的实用工具,尽管在复杂任务上仍落后于闭源模型。

0 人收藏 0 人点赞
#llama-cpp

@analogalok:我的8GB显存游戏本肯定会恨我这么做,但我还是做了。跑了一个31B稠密模型(Gemma 4…

X AI KOLs Timeline · 2026-06-16 缓存

用户在8GB显存的游戏本上,使用llama.cpp配合MTP推测解码,以约3 tokens/s的速度运行了Gemma 4 31B稠密模型,展示了在消费级硬件上运行31B稠密模型的可行性,并提出了智能体工作流程:快速MoE模型将困难任务路由给这个较慢的稠密模型。

0 人收藏 0 人点赞
#llama-cpp

引用 Georgi Gerganov

Simon Willison's Blog · 2026-06-16 缓存

Georgi Gerganov 证实 Qwen3.6-27B 是一个非常强大的本地编程模型,他日常在 M2 Ultra 或 RTX 5090 上使用一个轻量级框架来运行它。

0 人收藏 0 人点赞
#llama-cpp

停止使用 Ollama

Reddit r/LocalLLaMA · 2026-06-15 缓存

Ollama 因未能正确归功其所依赖的 llama.cpp 项目、违反 MIT 许可证要求,以及接受风险投资资金并偏离其本地优先的使命而受到批评。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈