后续：DeepSeek V4 Flash 在双 RTX PRO 6000 上完成真实编程任务的速度快于 Sonnet 和 Opus，质量与 Sonnet 相当

Reddit r/LocalLLaMA 2026/07/03 07:55 模型

deepseek v4 flash coding benchmark performance comparison

摘要

DeepSeek V4 Flash 在双 RTX PRO 6000 GPU 上完成真实编程任务的速度快于 Anthropic 的 Sonnet 和 Opus 模型，同时达到与 Sonnet 相近的质量。

暂无内容

查看原文

相似文章

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

Reddit r/LocalLLaMA

用户分享了在 RTX 5090 上使用 llama.cpp 的一个分支运行 DeepSeek-V4-Flash (Q2_K) 的优化基准测试结果，实现了 21.3 token/秒的生成速度和 100 万上下文大小。

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

X AI KOLs Following

antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本，使该模型能够在单张 GPU（如 RTX Pro 6000）以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face，并附有 DS4 推理引擎的使用说明。

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Reddit r/LocalLLaMA

这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本，启用了 MTP 自推测功能。通过修改后的 vLLM 设置，在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

Reddit r/LocalLLaMA

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

我们实测了DeepSeek V4 Pro和Flash与Claude Opus 4.7和Kimi K2.6的对比（11分钟阅读）

TLDR AI

DeepSeek于2026年4月24日以MIT许可证发布了V4 Pro和V4 Flash。在与Claude Opus 4.7和Kimi K2.6的基准测试中，V4 Pro得分77/100，价格为2.25美元，性能介于Opus 4.7（91分）和Kimi K2.6（68分）之间；而V4 Flash得分60/100，价格为0.02美元，是本次对比中最便宜的，并且到5月31日前购买V4 Pro可享受75%的折扣。

相似文章

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

我们实测了DeepSeek V4 Pro和Flash与Claude Opus 4.7和Kimi K2.6的对比（11分钟阅读）

提交意见反馈