找到了冷却 DGX 的方法
摘要
有用户报告称,在运行 Qwen3.5-122b 模型且 GPU 高负载的情况下,成功使用自来水为 DGX 服务器降温,并维持了安全的温度水平。
在使用 Qwen3.5-122b-a10B Q6_K 精度进行连续视觉分析时,GPU 利用率达到 95%,自来水冷却使温度保持在 68 摄氏度以下。内存占用 110 GB,上下文窗口为 80k,生成速度为 18.77 tokens/秒。目前尚不确定需要多久更换一次冷却用水,但到目前为止一切良好。
相似文章
停止浪费电力
作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时,在不牺牲推理速度的前提下,将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数,用户可显著降低发热与噪音,并延长硬件使用寿命。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
双 DGX Spark(华硕 GX10)MiniMax M2.7 实测
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。
@Prince_Canuma: 关于进水情况的快速更新:M3 Ultra和Titan(RTX6000 Pro)似乎已恢复,几乎没有可见损坏……
关于硬件进水损坏修复的个人更新,展示MLX-VLM在本地RTX6000 Pro上运行Qwen3-4B-Instruct,以约300 tok/s的速度通过Zed IDE实现自动补全和git提交信息生成。
@TeksEdge: 已解决!Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行!LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行,速度约 5…
Qwen3.6-27B-FP8 模型现已在 Intel Arc Pro B70 GPU 上运行,速度约 50 tok/s,并修复了 vLLM 的一个 bug,这标志着 Intel GPU 本地 AI 推理的一个重要里程碑。