后续:DeepSeek V4 Flash 在双 RTX PRO 6000 上完成真实编程任务的速度快于 Sonnet 和 Opus,质量与 Sonnet 相当
摘要
DeepSeek V4 Flash 在双 RTX PRO 6000 GPU 上完成真实编程任务的速度快于 Anthropic 的 Sonnet 和 Opus 模型,同时达到与 Sonnet 相近的质量。
相似文章
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
我们实测了DeepSeek V4 Pro和Flash与Claude Opus 4.7和Kimi K2.6的对比(11分钟阅读)
DeepSeek于2026年4月24日以MIT许可证发布了V4 Pro和V4 Flash。在与Claude Opus 4.7和Kimi K2.6的基准测试中,V4 Pro得分77/100,价格为2.25美元,性能介于Opus 4.7(91分)和Kimi K2.6(68分)之间;而V4 Flash得分60/100,价格为0.02美元,是本次对比中最便宜的,并且到5月31日前购买V4 Pro可享受75%的折扣。
@ciruai:在配备128GB内存的AMD Ryzen AI Max+ 395 Strix Halo上测试DeepSeek v4 Flash。在中等长度上下文中获得约15 TPS……
在配备128GB内存的AMD Ryzen AI Max+ 395上测试DeepSeek v4 Flash,本地运行284B MoE模型(13B活跃参数)可达约15 TPS。成本仅需3000美元,而数据中心配置需25000美元以上,凸显了在消费级硬件上运行大型模型的可行性。