我在家里跑了 DeepSeek V4 Pro
摘要
一名用户展示了如何使用修改版的 llama.cpp CUDA 仓库在本地工作站上成功运行 DeepSeek V4 Pro 模型,并分享了性能指标和硬件需求。
只是想分享一下,我使用了 u/LegacyRemaster 稍微修改过的(支持 Q4_K_M 转换)DeepSeek V4 [CUDA 仓库](https://github.com/Fringe210/llama.cpp-deepseek-v4-flash-cuda)(基于 u/antirez 的 [工作](https://github.com/antirez/llama.cpp-deepseek-v4-flash)),在我的 Epyc 工作站(Genoa 9374F 处理器,12 x 96GB 内存,单张 RTX PRO 6000 Max-Q 显卡)上转换并运行了 Q4_K_M 版本的 [DeepSeek V4 Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro),并且一开始就顺利运行起来了:
(base) phm@epyc:~/projects/llama.cpp-deepseek-v4-flash-cuda/build-cuda$ ./bin/llama-cli -m ../models/DeepSeek-V4-Pro-Q4_K_M.gguf --no-repack -ub 128 --chat-template-file ../models/templates/deepseek-ai-DeepSeek-V3.2.jinja
ggml_cuda_init: 发现 1 个 CUDA 设备 (总 VRAM: 97247 MiB): 设备 0: NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition, 计算能力 12.0, VMM: 是, VRAM: 97247 MiB
正在加载模型... ▄▄ ▄▄ ██ ██ ██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄ ██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██ ██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀ ██ ██ ▀▀ ▀▀
build : b8936-44c7b01de
model : DeepSeek-V4-Pro-Q4_K_M.gguf
modalities : text
available commands: /exit 或 Ctrl+C 停止或退出
/regen 重新生成上一个响应
/clear 清除聊天记录
/read <文件> 添加文本文件
/glob <模式> 使用通配符模式添加文本文件
> 你是谁?
[开始思考]
好的,用户问的是“你是谁?”。这是一个简单的入门问题。我需要清晰且热情地介绍自己。我应该说明我的名字、创建者以及对新用户最相关的关键功能。我可以提及我是免费的、我的上下文窗口大小、知识截止时间、文件支持以及网页和应用的可用性。最后,我会以开放式邀请结束,鼓励用户提出更多问题,以保持对话的进行。
[结束思考]
你好!我是 DeepSeek,一个由中国公司 DeepSeek(深度求索)创建的 AI 助手。我在这里帮助你解答问题、处理创意任务、解决问题,以及任何你好奇的事情!以下是关于我的一些信息:
- **免费使用** - 与我聊天没有收费
- **1M 上下文窗口** - 我可以一次性处理大量文本(比如整部三部曲小说!)
- **知识截止时间:2025 年 5 月** - 我的知识相当最新
- **文件上传支持** - 我可以从图像、PDF、Word 文档、Excel 文件等中读取文本
- **网页搜索功能** - 尽管你需要通过搜索按钮手动启用它
- **网页和移动应用可用** - 移动应用支持语音输入
我是一个纯文本模型,所以我不能直接“看到”图像,但我可以读取上传文件中的任何文本。我的目标是提供温暖、有用且详细的回答。今天我能帮你做些什么? 😊
[ 提示速度:12.2 t/s | 生成速度:8.6 t/s ]
> /exit
正在退出...
common_memory_breakdown_print: | 内存分布 [MiB] | 总计 空闲 自身 模型 上下文 计算 未计入
| common_memory_breakdown_print: | - CUDA0 (RTX PRO 6000 Blackwell Max-Q Workstation Edition) | 97247 = 4022 + ( 92472 = 87766 + 84 + 4621) + 753
| common_memory_breakdown_print: | - 主机 | 793994 = 793954 + 0 + 39
| ~llama_context: CUDA_Host 计算缓冲区大小为 39.1719 MiB,与预期的 15.3535 MiB 不匹配
模型文件大小为 859GB。
相似文章
我在家运行了(更快的)DeepSeek V4 Pro
用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
@antirez: DeepSeek v4 PRO 通过SSD流式传输在我的128GB MacBook m5 max上运行。1.6万亿参数。
DeepSeek v4 PRO,一个拥有1.6万亿参数的模型,通过SSD流式传输在128GB MacBook m5 max上运行,展示了本地运行大规模模型的能力。
Deepseek v4 Flash 确实惊艳,正准备入手一台 2.5 万美元的电脑
作者称赞 DeepSeek V4 Flash 实现了高性能的本地大语言模型部署,为此计划斥资 2.5 万美元采购硬件,以为对数据隐私要求严格的客户服务。
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。