vram

标签

Cards List
#vram

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白,“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline · 20小时前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞
#vram

我们现在就能在 llama-server 里用 Google 的 TurboQuant(TQ)压缩 KV Cache 吗?还是还得等 PR?

Reddit r/LocalLLaMA · 2026-04-22

社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。

0 人收藏 0 人点赞
#vram

如果显存允许,尽量跑更大的量化模型

Reddit r/LocalLLaMA · 2026-04-22

有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。

0 人收藏 0 人点赞
#vram

Gemma 4 视觉

Reddit r/LocalLLaMA · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞
#vram

我应该买哪台电脑:Mac还是自组5090?[D]

Reddit r/MachineLearning · 2026-04-17

用户寻求建议,询问是购买Mac(M5)还是自组的RTX 5090用于机器学习项目,涉及微调、自定义管道以及图像/视频密集型工作流,同时对苹果的MLX框架作为NVIDIA CUDA的替代方案感到好奇。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈