48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

Reddit r/LocalLLaMA 2026/05/11 20:49 模型

local-inference long-context code-generation gguf-quantization nemotron-model open-weight

摘要

一位用户报告成功部署了量化版 Nemotron-3 Super 模型，该模型支持 500k 上下文和代理编码，运行在消费级双 Titan RTX 硬件上。

我在 huggingface 的角落里发现了这个模型：[https://huggingface.co/Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAP-GGUF](https://huggingface.co/Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAP-GGUF) 看起来它是专门为数学调优的，但我心想试一试，因为我跑不动完整的 120B Nemotron Super，而不知为何，它在代理编码方面的表现非常出色。已经用它编码所有项目一周了，太棒了。做梦都没想到在我的破双 TITAN RTX 上能拥有 500k tokens。如果你正好尝试了，请在评论区分享你的体验，比如哪里出了问题，你用它做了什么用例等等。

查看原文

48GB 显存实现 500k 上下文！！- 21 tok/s (编码)

相似文章

@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

在老款GTX 1080（8GB显存，128k上下文）上，约30B的MoE模型达到24+ tok/s的推理速度

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

在 8GB 显存和 32GB 内存上运行 Qwen3.6 35b a3b，~190k 上下文

提交意见反馈