我在家里跑了 DeepSeek V4 Pro

Reddit r/LocalLLaMA 新闻

摘要

一名用户展示了如何使用修改版的 llama.cpp CUDA 仓库在本地工作站上成功运行 DeepSeek V4 Pro 模型,并分享了性能指标和硬件需求。

只是想分享一下,我使用了 u/LegacyRemaster 稍微修改过的(支持 Q4_K_M 转换)DeepSeek V4 [CUDA 仓库](https://github.com/Fringe210/llama.cpp-deepseek-v4-flash-cuda)(基于 u/antirez 的 [工作](https://github.com/antirez/llama.cpp-deepseek-v4-flash)),在我的 Epyc 工作站(Genoa 9374F 处理器,12 x 96GB 内存,单张 RTX PRO 6000 Max-Q 显卡)上转换并运行了 Q4_K_M 版本的 [DeepSeek V4 Pro](https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro),并且一开始就顺利运行起来了: (base) phm@epyc:~/projects/llama.cpp-deepseek-v4-flash-cuda/build-cuda$ ./bin/llama-cli -m ../models/DeepSeek-V4-Pro-Q4_K_M.gguf --no-repack -ub 128 --chat-template-file ../models/templates/deepseek-ai-DeepSeek-V3.2.jinja ggml_cuda_init: 发现 1 个 CUDA 设备 (总 VRAM: 97247 MiB): 设备 0: NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition, 计算能力 12.0, VMM: 是, VRAM: 97247 MiB 正在加载模型... ▄▄ ▄▄ ██ ██ ██ ██ ▀▀█▄ ███▄███▄ ▀▀█▄ ▄████ ████▄ ████▄ ██ ██ ▄█▀██ ██ ██ ██ ▄█▀██ ██ ██ ██ ██ ██ ██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀ ██ ██ ▀▀ ▀▀ build : b8936-44c7b01de model : DeepSeek-V4-Pro-Q4_K_M.gguf modalities : text available commands: /exit 或 Ctrl+C 停止或退出 /regen 重新生成上一个响应 /clear 清除聊天记录 /read <文件> 添加文本文件 /glob <模式> 使用通配符模式添加文本文件 > 你是谁? [开始思考] 好的,用户问的是“你是谁?”。这是一个简单的入门问题。我需要清晰且热情地介绍自己。我应该说明我的名字、创建者以及对新用户最相关的关键功能。我可以提及我是免费的、我的上下文窗口大小、知识截止时间、文件支持以及网页和应用的可用性。最后,我会以开放式邀请结束,鼓励用户提出更多问题,以保持对话的进行。 [结束思考] 你好!我是 DeepSeek,一个由中国公司 DeepSeek(深度求索)创建的 AI 助手。我在这里帮助你解答问题、处理创意任务、解决问题,以及任何你好奇的事情!以下是关于我的一些信息: - **免费使用** - 与我聊天没有收费 - **1M 上下文窗口** - 我可以一次性处理大量文本(比如整部三部曲小说!) - **知识截止时间:2025 年 5 月** - 我的知识相当最新 - **文件上传支持** - 我可以从图像、PDF、Word 文档、Excel 文件等中读取文本 - **网页搜索功能** - 尽管你需要通过搜索按钮手动启用它 - **网页和移动应用可用** - 移动应用支持语音输入 我是一个纯文本模型,所以我不能直接“看到”图像,但我可以读取上传文件中的任何文本。我的目标是提供温暖、有用且详细的回答。今天我能帮你做些什么? 😊 [ 提示速度:12.2 t/s | 生成速度:8.6 t/s ] > /exit 正在退出... common_memory_breakdown_print: | 内存分布 [MiB] | 总计 空闲 自身 模型 上下文 计算 未计入 | common_memory_breakdown_print: | - CUDA0 (RTX PRO 6000 Blackwell Max-Q Workstation Edition) | 97247 = 4022 + ( 92472 = 87766 + 84 + 4621) + 753 | common_memory_breakdown_print: | - 主机 | 793994 = 793954 + 0 + 39 | ~llama_context: CUDA_Host 计算缓冲区大小为 39.1719 MiB,与预期的 15.3535 MiB 不匹配 模型文件大小为 859GB。
查看原文

相似文章

我在家运行了(更快的)DeepSeek V4 Pro

Reddit r/LocalLLaMA

用户报告成功使用 ktransformers 在本地运行 DeepSeek V4 Pro 模型,并分享了在不同上下文深度下的详细基准测试结果,展示了改进的推理速度。