vram-optimization

#vram-optimization

@0xSero：适合你硬件的最佳模型——4GB到12GB显存——VibeThinker-3B——秒杀所有同量级模型……

X AI KOLs Timeline ↗ · 昨天缓存

本推文推荐了针对不同显存容量优化的AI模型，重点介绍了VibeThinker-3B在3B参数量下的强大推理能力，以及其他用于编程和通用场景的模型。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2天前

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子，例如将mmproj卸载到CPU、调整KV缓存类型，同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-06-08

测试表明，llama.cpp 默认的流水线并行浪费显存且无速度提升；通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存，同时保持相同推理速度。

0 人收藏 0 人点赞

#vram-optimization

X AI KOLs Timeline ↗ · 2026-06-07 缓存

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志，在8GB显存上运行Gemma 4 26B MoE，实现了250k上下文下20 token/秒的速度，这标志着廉价本地AI的一个重要里程碑。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-06-04

一位开发者已为llama.cpp实现了一个概念验证的PR，通过HTTP端点添加了动态KV缓存量化功能，允许用户按需重新量化其KV缓存，而无需完全重新加载模型。该帖子还概述了一个愿望清单，包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-05-29 缓存

此拉取请求针对llama.cpp推理引擎，实现了使用f16掩膜的Flash Attention以减少VRAM使用。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-05-22

一位开发者创建了llama.cpp的实验性分支，该分支仅将已使用的专家（expert）而非完整层卸载到显存，从而在RTX 2060 12GB等显存有限的GPU上为MoE模型带来了速度提升。作者正在寻找测试者，以验证其在其他Nvidia GPU上的性能表现。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-04-21

llama.cpp 新增的 --fit 标志让超大模型也能在显存不足时高速运行，轻松突破显存限制，速度依旧惊人。

0 人收藏 0 人点赞

#vram-optimization

Reddit r/LocalLLaMA ↗ · 2026-04-19

用户报告成功部署 Qwen 3.6 与 ik_llama 量化，在消费级硬件（16GB VRAM、32GB RAM）上实现 200k 上下文窗口下 50+ token/秒。

0 人收藏 0 人点赞