标签
解释了llama.cpp中的-ncmoe标志如何通过将部分专家层卸载到CPU+内存,在有限显存(8-12GB)上提升MoE模型(如Qwen3.6 35B A3B)的性能,基准测试显示在RTX 3070Ti上可实现高达5倍的加速。
社区讨论:Google TurboQuant 压缩是否已可用于 llama-server 的 KV cache,还是仍在等待实现。
有用户反馈,把高度压缩的 IQ4_XS 换成更大的 IQ4_NL_XL 后,Qwen 3.6 的 Agent 编程准确率大幅提升;虽然 tok/s 下降,但只要 VRAM 够,强烈建议优先选更大的量化。
Gemma 4 的视觉表现受默认 token 预算过低拖累;在 llama.cpp 中将 --image-max-tokens 提到 2240,可解锁顶尖 OCR 与细节识别,代价是额外占用约 14 GB 显存。
用户寻求建议,询问是购买Mac(M5)还是自组的RTX 5090用于机器学习项目,涉及微调、自定义管道以及图像/视频密集型工作流,同时对苹果的MLX框架作为NVIDIA CUDA的替代方案感到好奇。