gguf-quantization

标签

Cards List
#gguf-quantization

48GB 显存实现 500k 上下文!!- 21 tok/s (编码)

Reddit r/LocalLLaMA · 2026-05-11

一位用户报告成功部署了量化版 Nemotron-3 Super 模型,该模型支持 500k 上下文和代理编码,运行在消费级双 Titan RTX 硬件上。

0 人收藏 0 人点赞
#gguf-quantization

hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF

Hugging Face Models Trending · 2026-04-18 缓存

一个 35B 参数的 Qwen3.6 模型,使用 Claude-Opus 风格的思维链蒸馏数据微调,并以 GGUF 量化格式发布,可在本地高效推理。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈