w8a8-quantization

标签

Cards List
#w8a8-quantization

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!

Reddit r/LocalLLaMA · 2026-05-20

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈