w8a8-quantization

#w8a8-quantization

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

Reddit r/LocalLLaMA ↗ · 2026-05-20

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

0 人收藏 0 人点赞