@Tono_Ken3: 哦天哪,我成功了!它成功了——DeepSeek-V4-Flash-FP8 8 parallel aggregate 400TPS!!本地LLM革命 耶耶耶耶耶!哈哈
摘要
在本地硬件上使用8个并行聚合以DeepSeek-V4-Flash-FP8实现了每秒400个token,标志着本地LLM推理的一个重要里程碑。
哦天哪,我成功了!它成功了——DeepSeek-V4-Flash-FP8 8 parallel aggregate 400TPS!!本地LLM革命 耶耶耶耶耶!哈哈
相似文章
关于在Hopper上使DeepSeek V4 Flash达到近200 tok/s的一些技巧
这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理,达到近200令牌/秒的技巧和基准测试,重点介绍了使用Canada-Quant的量化检查点和张量并行优化。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
Deepseek v4 Flash 确实惊艳,正准备入手一台 2.5 万美元的电脑
作者称赞 DeepSeek V4 Flash 实现了高性能的本地大语言模型部署,为此计划斥资 2.5 万美元采购硬件,以为对数据隐私要求严格的客户服务。
@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)
Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理,将此前仅限于定制芯片的高速推理引入生产硬件。
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。