gguf-quantization

#gguf-quantization

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

Reddit r/LocalLLaMA ↗ · 2026-05-11

一位用户报告成功部署了量化版 Nemotron-3 Super 模型，该模型支持 500k 上下文和代理编码，运行在消费级双 Titan RTX 硬件上。

0 人收藏 0 人点赞

#gguf-quantization

Hugging Face Models Trending ↗ · 2026-04-18 缓存

一个 35B 参数的 Qwen3.6 模型，使用 Claude-Opus 风格的思维链蒸馏数据微调，并以 GGUF 量化格式发布，可在本地高效推理。

0 人收藏 0 人点赞