vram

#vram

@leftcurvedev_: 任何拥有8GB或12GB显存配置的用户都需要明白，“-ncmoe”是在llama.cpp上提升性能的关键标志…

X AI KOLs Timeline ↗ · 20小时前

解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存，在有限显存（8-12GB）上提升MoE模型（如Qwen3.6 35B A3B）的性能，基准测试显示在RTX 3070Ti上可实现高达5倍的加速。

0 人收藏 0 人点赞

#vram

Reddit r/LocalLLaMA ↗ · 2026-04-22

社区讨论：Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache，还是仍在等待实现。

0 人收藏 0 人点赞

#vram

Reddit r/LocalLLaMA ↗ · 2026-04-22

有用户反馈，把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后，Qwen 3.6 的 Agent 编程准确率大幅提升；虽然 tok/s 下降，但只要 VRAM 够，强烈建议优先选更大的量化。

0 人收藏 0 人点赞

#vram

Reddit r/LocalLLaMA ↗ · 2026-04-21

Gemma 4 的视觉表现受默认 token 预算过低拖累；在 llama.cpp 中将 --image-max-tokens 提到 2240，可解锁顶尖 OCR 与细节识别，代价是额外占用约 14 GB 显存。

0 人收藏 0 人点赞

#vram

Reddit r/MachineLearning ↗ · 2026-04-17

用户寻求建议，询问是购买Mac（M5）还是自组的RTX 5090用于机器学习项目，涉及微调、自定义管道以及图像/视频密集型工作流，同时对苹果的MLX框架作为NVIDIA CUDA的替代方案感到好奇。

0 人收藏 0 人点赞