llama-cpp

标签

#llama-cpp

llama.cpp 更新 - granite-speech-4.1-2b, LFM2.5-ColBERT/Embedding-350M, Vulkan 后端相关变更及其他事项

Reddit r/LocalLLaMA ↗ · 1小时前

llama.cpp 新增对 granite-speech-4.1-2b 和 LFM 嵌入模型的支持，引入了多项 Vulkan 后端增强功能（例如 CONV_3D、规范常量、溢出修复），并包含 UI/UX 改进和其他修复。

0 人收藏 0 人点赞

#llama-cpp

MiniMax-M3-EAGLE3-GGUF - 兼容 Llama.cpp 的 MiniMax M3 EAGLE 草稿模型！

Reddit r/LocalLLaMA ↗ · 昨天

现在有了适用于 llama.cpp 的 MiniMax M3 EAGLE 草稿模型的 GGUF 转换，可在兼容硬件上实现推测解码加速。

0 人收藏 0 人点赞

#llama-cpp

Qt Creator 20 与本地 AI

Reddit r/LocalLLaMA ↗ · 昨天缓存

Qt Creator 20 现在通过 Agent Client Protocol 支持本地 AI 编码助手，可以集成在消费级硬件上运行的开源权重模型（如 GPT-OSS 和 Gemma 4）。

0 人收藏 0 人点赞

#llama-cpp

Gemma4-12B-QAT Uncensored Balanced 现已发布，支持 MTP（约 60% 速度提升）！

Reddit r/LocalLLaMA ↗ · 昨天

Gemma4-12B-QAT Uncensored Balanced 发布，这是一个经过微调的无审查模型，配备多 token 预测草案头，可实现约 60% 更快的推测解码，针对 llama.cpp 优化，并支持视觉功能。

0 人收藏 0 人点赞

#llama-cpp

GLM-5.2 UD-IQ1_M 在 llama.cpp 上的运行 — 5090 + 3090 Ti 速度测试 (~ 579 t/s 预填充 @ 8k 上下文, ~324 t/s 预填充 @ 57k 上下文, ~10.6 t/s 解码)

Reddit r/LocalLLaMA ↗ · 昨天

GLM-5.2 在 llama.cpp 上使用 RTX 5090 和 RTX 3090 Ti 运行的速度测试结果，显示在 8k 上下文中预填充速度高达 579 t/s，解码速度约为 10.6 t/s。

0 人收藏 0 人点赞

#llama-cpp

Qwen3.6-35B-A3B APEX 在单张 RTX 3090 上——充分发挥其潜力

Reddit r/LocalLLaMA ↗ · 昨天

在 RTX 3090 上运行 Qwen3.6-35B-A3B APEX 模型的详细指南：比较两个 llama.cpp 分支及量化方法，以达到最佳速度与质量。

0 人收藏 0 人点赞

#llama-cpp

本地LLM推理优化：完整指南

Reddit r/LocalLLaMA ↗ · 2天前缓存

一份关于在消费级硬件上优化本地LLM推理的全面指南，涵盖llama.cpp、vLLM和LM Studio等工具，并提供关于内存层次结构、层放置和常见故障模式的实用建议。

0 人收藏 0 人点赞

#llama-cpp

@TheAhmadOsman: 为什么我关注你硬件的推理引擎/软件栈？ - 2x RTX 3090s: ~14.5 tok/s → ~64 tok/s 提升到…

X AI KOLs Following ↗ · 2天前缓存

不同硬件上推理引擎性能对比：在2x RTX 3090s上从基线迁移到TP=2的vLLM，性能从~14.5 tok/s提升至~64 tok/s；在RTX PRO 6000上迁移到Sglang，性能从~32 tok/s提升至~110 tok/s。推荐在CUDA/多GPU场景使用vLLM/Sglang，在边缘设备使用llama.cpp。

0 人收藏 0 人点赞

#llama-cpp

最佳本地视觉模型——第二次基准测试更新——2026年6月21日

Reddit r/LocalLLaMA ↗ · 2天前

本文介绍了本地视觉语言模型基准测试的第二次更新，比较了23个模型在30张图像上的表现（使用修订设置），并为不同VRAM层级提供了性能建议。主要发现包括：推理模式会损害视觉性能，且MoE模型在感知任务上表现不如密集模型。

0 人收藏 0 人点赞

#llama-cpp

双Radeon R9700——在llama.cpp上运行Qwen 3.6 27B Q8 MTP

Reddit r/LocalLLaMA ↗ · 2天前

关于在使用ROCm的llama.cpp上，于双AMD Radeon R9700配置下运行Qwen 3.6 27B Q8模型的技术报告，包括性能基准测试和配置详情。

0 人收藏 0 人点赞

#llama-cpp

@analogalok: gemma-4-12B-agentic-fable5-composer2.5 V2 已发布。对基于 Fable 5 推理训练的模型进行了智能体升级。运行…

X AI KOLs Timeline ↗ · 3天前缓存

Gemma 4 12B 的一个新微调版本，基于 Fable 5 的推理进行训练，在智能体编码基准测试中实现了显著提升（从15%到55%），并且可以使用 llama.cpp 的自定义分支在 8GB VRAM GPU 上本地运行。

0 人收藏 0 人点赞

#llama-cpp

7900XTX 24GB 显存，终于能够在 131k 上下文下容纳 Q6K+MTP 和 Qwen 3.6 27B

Reddit r/LocalLLaMA ↗ · 4天前

在 AMD 7900XTX 上优化显存使用的指南，通过编译带有 OpenBLAS 和 CUDA_FA_ALL_QUANTS 的 llama.cpp，并使用 q5_0/q4_0 的 KVCache 量化，以运行使用 Q6K 量化和 131k 上下文的 27B Qwen 模型。

0 人收藏 0 人点赞

#llama-cpp

GLM-5.2 现在可以在 llama.cpp 和 Unsloth Studio 中本地运行。

Reddit r/LocalLLaMA ↗ · 5天前

GLM-5.2 现已支持通过 llama.cpp 和 Unsloth Studio 本地运行。

0 人收藏 0 人点赞

#llama-cpp

llama.cpp 现在通过API支持模型管理（下载等）

Reddit r/LocalLLaMA ↗ · 6天前

llama.cpp 现在通过API支持模型管理，包括下载和生命周期管理，无需外部工具即可完全部署。

0 人收藏 0 人点赞

#llama-cpp

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA ↗ · 6天前

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子，例如将mmproj卸载到CPU、调整KV缓存类型，同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞

#llama-cpp

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

X AI KOLs Timeline ↗ · 6天前缓存

用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试，实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。

0 人收藏 0 人点赞

#llama-cpp

本地模型从几乎无用迅速变得真正有用。是什么发生了变化？

Reddit r/LocalLLaMA ↗ · 2026-06-17

文章指出，过去一年中，本地AI模型变得显著更有用，从玩具变成了编程和工作流程的实用工具，尽管在复杂任务上仍落后于闭源模型。

0 人收藏 0 人点赞

#llama-cpp

@analogalok：我的8GB显存游戏本肯定会恨我这么做，但我还是做了。跑了一个31B稠密模型（Gemma 4…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

用户在8GB显存的游戏本上，使用llama.cpp配合MTP推测解码，以约3 tokens/s的速度运行了Gemma 4 31B稠密模型，展示了在消费级硬件上运行31B稠密模型的可行性，并提出了智能体工作流程：快速MoE模型将困难任务路由给这个较慢的稠密模型。

0 人收藏 0 人点赞

#llama-cpp

引用 Georgi Gerganov

Simon Willison's Blog ↗ · 2026-06-16 缓存

Georgi Gerganov 证实 Qwen3.6-27B 是一个非常强大的本地编程模型，他日常在 M2 Ultra 或 RTX 5090 上使用一个轻量级框架来运行它。

0 人收藏 0 人点赞

#llama-cpp

停止使用 Ollama

Reddit r/LocalLLaMA ↗ · 2026-06-15 缓存

Ollama 因未能正确归功其所依赖的 llama.cpp 项目、违反 MIT 许可证要求，以及接受风险投资资金并偏离其本地优先的使命而受到批评。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈