48GB 显存实现 500k 上下文!!- 21 tok/s (编码)

Reddit r/LocalLLaMA 模型

摘要

一位用户报告成功部署了量化版 Nemotron-3 Super 模型,该模型支持 500k 上下文和代理编码,运行在消费级双 Titan RTX 硬件上。

我在 huggingface 的角落里发现了这个模型:[https://huggingface.co/Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAP-GGUF](https://huggingface.co/Max-and-Omnis/Nemotron-3-Super-64B-A12B-Math-REAP-GGUF) 看起来它是专门为数学调优的,但我心想试一试,因为我跑不动完整的 120B Nemotron Super,而不知为何,它在代理编码方面的表现非常出色。已经用它编码所有项目一周了,太棒了。做梦都没想到在我的破双 TITAN RTX 上能拥有 500k tokens。如果你正好尝试了,请在评论区分享你的体验,比如哪里出了问题,你用它做了什么用例等等。
查看原文

相似文章