vram-optimization

标签

Cards List
#vram-optimization

@0xSero:适合你硬件的最佳模型——4GB到12GB显存——VibeThinker-3B——秒杀所有同量级模型……

X AI KOLs Timeline · 昨天 缓存

本推文推荐了针对不同显存容量优化的AI模型,重点介绍了VibeThinker-3B在3B参数量下的强大推理能力,以及其他用于编程和通用场景的模型。

0 人收藏 0 人点赞
#vram-optimization

llama.cpp - 如何在GPU上释放更多空间

Reddit r/LocalLLaMA · 2天前

一则讨论如何在llama.cpp中释放GPU内存实用技巧的帖子,例如将mmproj卸载到CPU、调整KV缓存类型,同时讨论了--cache-type-k/v和--spec-draft-n-max等参数。

0 人收藏 0 人点赞
#vram-optimization

llama.cpp 中的流水线并行可能浪费你的显存

Reddit r/LocalLLaMA · 2026-06-08

测试表明,llama.cpp 默认的流水线并行浪费显存且无速度提升;通过编译时设置 GGML_SCHED_MAX_COPIES=1 可节省大量显存,同时保持相同推理速度。

0 人收藏 0 人点赞
#vram-optimization

@analogalok: 在8GB显存上以20+ token/秒运行Gemma 4 26B MoE,支持250k上下文。如果你有8GB显存显卡,停下你正在做的事……

X AI KOLs Timeline · 2026-06-07 缓存

Alok演示了使用Unsloth的QAT量化以及llama.cpp中的-cmoe标志,在8GB显存上运行Gemma 4 26B MoE,实现了250k上下文下20 token/秒的速度,这标志着廉价本地AI的一个重要里程碑。

0 人收藏 0 人点赞
#vram-optimization

动态KV缓存量化与按需加载mmproj/MTP:我的llama.cpp愿望清单

Reddit r/LocalLLaMA · 2026-06-04

一位开发者已为llama.cpp实现了一个概念验证的PR,通过HTTP端点添加了动态KV缓存量化功能,允许用户按需重新量化其KV缓存,而无需完全重新加载模型。该帖子还概述了一个愿望清单,包括按需加载mmproj/MTP交换以及用于上下文优化的自动--fit标志。

0 人收藏 0 人点赞
#vram-optimization

llama: 使用f16掩膜进行FA以节省VRAM(作者 am17an)· 拉取请求 #23764 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-05-29 缓存

此拉取请求针对llama.cpp推理引擎,实现了使用f16掩膜的Flash Attention以减少VRAM使用。

0 人收藏 0 人点赞
#vram-optimization

专家优先的llama.cpp

Reddit r/LocalLLaMA · 2026-05-22

一位开发者创建了llama.cpp的实验性分支,该分支仅将已使用的专家(expert)而非完整层卸载到显存,从而在RTX 2060 12GB等显存有限的GPU上为MoE模型带来了速度提升。作者正在寻找测试者,以验证其在其他Nvidia GPU上的性能表现。

0 人收藏 0 人点赞
#vram-optimization

llama.cpp 的 auto fit 远比我想象的好用

Reddit r/LocalLLaMA · 2026-04-21

llama.cpp 新增的 --fit 标志让超大模型也能在显存不足时高速运行,轻松突破显存限制,速度依旧惊人。

0 人收藏 0 人点赞
#vram-optimization

QWEN3.6 + ik_llama 快得离谱

Reddit r/LocalLLaMA · 2026-04-19

用户报告成功部署 Qwen 3.6 与 ik_llama 量化,在消费级硬件(16GB VRAM、32GB RAM)上实现 200k 上下文窗口下 50+ token/秒。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈