@Tono_Ken3: 哦天哪，我成功了！它成功了——DeepSeek-V4-Flash-FP8 8 parallel aggregate 400TPS！！本地LLM革命耶耶耶耶耶！哈哈

X AI KOLs Timeline 2026/05/15 04:07 模型

local-llm inference-speed deepseek fp8 parallel-optimization

摘要

在本地硬件上使用8个并行聚合以DeepSeek-V4-Flash-FP8实现了每秒400个token，标志着本地LLM推理的一个重要里程碑。

哦天哪，我成功了！它成功了——DeepSeek-V4-Flash-FP8 8 parallel aggregate 400TPS！！本地LLM革命耶耶耶耶耶！哈哈

查看原文

相似文章

Reddit r/LocalLLaMA

技术文章：详细介绍如何使用自定义Triton内核和vLLM在两块Nvidia 4090d GPU上运行DeepSeek V4 Flash，在262k上下文环境下实现约105 tokens/秒的推理速度。

Reddit r/LocalLLaMA

这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理，达到近200令牌/秒的技巧和基准测试，重点介绍了使用Canada-Quant的量化检查点和张量并行优化。

X AI KOLs Timeline

演示同时在GPU上以100 TPS运行Qwen3.6-27b，在CPU上以25 TPS运行Hy3-299B，标志着本地LLM推理的一个里程碑。

Reddit r/LocalLLaMA

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

Reddit r/LocalLLaMA

DeepSeek V4 Flash（98GB）现在通过CPU卸载，在单块RTX 4060 Ti上运行速度可达每秒7个token，相比上周的2t/s提升了3倍。