找到了冷却 DGX 的方法

Reddit r/LocalLLaMA 2026/05/12 02:05 新闻

摘要

有用户报告称，在运行 Qwen3.5-122b 模型且 GPU 高负载的情况下，成功使用自来水为 DGX 服务器降温，并维持了安全的温度水平。

在使用 Qwen3.5-122b-a10B Q6_K 精度进行连续视觉分析时，GPU 利用率达到 95%，自来水冷却使温度保持在 68 摄氏度以下。内存占用 110 GB，上下文窗口为 80k，生成速度为 18.77 tokens/秒。目前尚不确定需要多久更换一次冷却用水，但到目前为止一切良好。

查看原文

相似文章

停止浪费电力

Reddit r/LocalLLaMA

作者展示了如何在通过 llama.cpp 运行量化 Qwen 模型时，在不牺牲推理速度的前提下，将 RTX 4090 的功耗降低高达 40%。通过 nvidia-smi 限制 GPU 功耗上限并调整 llama-server 参数，用户可显著降低发热与噪音，并延长硬件使用寿命。

@cniongolo: 我不确定大家是否已经意识到，你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…

X AI KOLs Following

演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上，使用 Hugging Face Inference 运行自定义 Qwen 模型（Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF），达到每秒约 195 个 token 的处理速度。

双 DGX Spark（华硕 GX10）MiniMax M2.7 实测

Reddit r/LocalLLaMA

用户实测两台华硕 GX10（DGX Spark）运行 MiniMax-M2.7-AWQ-4bit，每块仅约 100 W，生成速度 30–40 tokens/s，彻底替代嘈杂的多 GPU 机架。

@Prince_Canuma: 关于进水情况的快速更新：M3 Ultra和Titan（RTX6000 Pro）似乎已恢复，几乎没有可见损坏……

X AI KOLs Timeline

关于硬件进水损坏修复的个人更新，展示MLX-VLM在本地RTX6000 Pro上运行Qwen3-4B-Instruct，以约300 tok/s的速度通过Zed IDE实现自动补全和git提交信息生成。

@TeksEdge: 已解决！Qwen3.6-27B-FP8 现已在 Intel Arc Pro B70 上运行！LocalMaxxing 展示了 4× Arc Pro B70 32GB 的有效运行，速度约 5…