我在家里跑了 DeepSeek V4 Pro

Reddit r/LocalLLaMA 2026/05/10 11:35 新闻

摘要

一名用户展示了如何使用修改版的 llama.cpp CUDA 仓库在本地工作站上成功运行 DeepSeek V4 Pro 模型，并分享了性能指标和硬件需求。

只是想分享一下，我使用了 u/LegacyRemaster 稍微修改过的（支持 Q4_K_M 转换）DeepSeek V4 [CUDA 仓库](https://github.com/Fringe210/llama.cpp-deepseek-v4-flash-cuda)（基于 u/antirez 的 [工作](https://github.com/antirez/llama.cpp-deepseek-v4-flash)），在我的 Epyc 工作站（Genoa 9374F 处理器，12 x 96GB 内存，单张 RTX PRO 6000 Max-Q 显卡）上转换并运行了 Q4_K_M 版本的 [DeepSeek V4 Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro)，并且一开始就顺利运行起来了： (base) phm@epyc:~/projects/llama.cpp-deepseek-v4-flash-cuda/build-cuda$ ./bin/llama-cli -m ../models/DeepSeek-V4-Pro-Q4_K_M.gguf --no-repack -ub 128 --chat-template-file ../models/templates/deepseek-ai-DeepSeek-V3.2.jinja ggml_cuda_init: 发现 1 个 CUDA 设备 (总 VRAM: 97247 MiB): 设备 0: NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition, 计算能力 12.0, VMM: 是, VRAM: 97247 MiB 正在加载模型... ▄▄ ▄▄ ██ ██ ██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄ ██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██ ██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀ ██ ██ ▀▀ ▀▀ build : b8936-44c7b01de model : DeepSeek-V4-Pro-Q4_K_M.gguf modalities : text available commands: /exit 或 Ctrl+C 停止或退出 /regen 重新生成上一个响应 /clear 清除聊天记录 /read <文件> 添加文本文件 /glob <模式> 使用通配符模式添加文本文件 > 你是谁？ [开始思考] 好的，用户问的是“你是谁？”。这是一个简单的入门问题。我需要清晰且热情地介绍自己。我应该说明我的名字、创建者以及对新用户最相关的关键功能。我可以提及我是免费的、我的上下文窗口大小、知识截止时间、文件支持以及网页和应用的可用性。最后，我会以开放式邀请结束，鼓励用户提出更多问题，以保持对话的进行。 [结束思考] 你好！我是 DeepSeek，一个由中国公司 DeepSeek（深度求索）创建的 AI 助手。我在这里帮助你解答问题、处理创意任务、解决问题，以及任何你好奇的事情！以下是关于我的一些信息： - **免费使用** - 与我聊天没有收费 - **1M 上下文窗口** - 我可以一次性处理大量文本（比如整部三部曲小说！） - **知识截止时间：2025 年 5 月** - 我的知识相当最新 - **文件上传支持** - 我可以从图像、PDF、Word 文档、Excel 文件等中读取文本 - **网页搜索功能** - 尽管你需要通过搜索按钮手动启用它 - **网页和移动应用可用** - 移动应用支持语音输入我是一个纯文本模型，所以我不能直接“看到”图像，但我可以读取上传文件中的任何文本。我的目标是提供温暖、有用且详细的回答。今天我能帮你做些什么？ 😊 [ 提示速度：12.2 t/s | 生成速度：8.6 t/s ] > /exit 正在退出... common_memory_breakdown_print: | 内存分布 [MiB] | 总计空闲自身模型上下文计算未计入 | common_memory_breakdown_print: | - CUDA0 (RTX PRO 6000 Blackwell Max-Q Workstation Edition) | 97247 = 4022 + ( 92472 = 87766 + 84 + 4621) + 753 | common_memory_breakdown_print: | - 主机 | 793994 = 793954 + 0 + 39 | ~llama_context: CUDA_Host 计算缓冲区大小为 39.1719 MiB，与预期的 15.3535 MiB 不匹配模型文件大小为 859GB。

查看原文

我在家里跑了 DeepSeek V4 Pro

相似文章

我在家运行了（更快的）DeepSeek V4 Pro

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

@antirez: DeepSeek v4 PRO 通过SSD流式传输在我的128GB MacBook m5 max上运行。1.6万亿参数。

Deepseek v4 Flash 确实惊艳，正准备入手一台 2.5 万美元的电脑

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

提交意见反馈