后续：DeepSeek V4 Flash 在双 RTX PRO 6000 上完成真实编程任务的速度快于 Sonnet 和 Opus，质量与 Sonnet 相当

Reddit r/LocalLLaMA 2026/07/03 07:55 模型

deepseek v4 flash coding benchmark performance comparison

摘要

DeepSeek V4 Flash 在双 RTX PRO 6000 GPU 上完成真实编程任务的速度快于 Anthropic 的 Sonnet 和 Opus 模型，同时达到与 Sonnet 相近的质量。

暂无内容

查看原文

相似文章

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

X AI KOLs Following

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本，使该模型能够在单张 GPU（如 RTX Pro 6000）以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face，并附有 DS4 推理引擎的使用说明。

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本，启用了 MTP 自推测功能。通过修改后的 vLLM 设置，在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

Reddit r/LocalLLaMA

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

我们实测了DeepSeek V4 Pro和Flash与Claude Opus 4.7和Kimi K2.6的对比（11分钟阅读）

TLDR AI

DeepSeek于2026年4月24日以MIT许可证发布了V4 Pro和V4 Flash。在与Claude Opus 4.7和Kimi K2.6的基准测试中，V4 Pro得分77/100，价格为2.25美元，性能介于Opus 4.7（91分）和Kimi K2.6（68分）之间；而V4 Flash得分60/100，价格为0.02美元，是本次对比中最便宜的，并且到5月31日前购买V4 Pro可享受75%的折扣。

@ciruai：在配备128GB内存的AMD Ryzen AI Max+ 395 Strix Halo上测试DeepSeek v4 Flash。在中等长度上下文中获得约15 TPS……

X AI KOLs Timeline

在配备128GB内存的AMD Ryzen AI Max+ 395上测试DeepSeek v4 Flash，本地运行284B MoE模型（13B活跃参数）可达约15 TPS。成本仅需3000美元，而数据中心配置需25000美元以上，凸显了在消费级硬件上运行大型模型的可行性。