@aijoey: 给我的所有新DGX Spark用户. https://github.com/joeynyc/spark-doctor…
摘要
Spark Doctor 是一个开源的诊断命令行工具,专为NVIDIA DGX Spark设计,可收集系统、GPU、内存、Docker和配方数据,应用特定规则,并输出常见问题的可能原因及后续步骤。
查看缓存全文
缓存时间: 2026/06/24 12:23
致所有 DGX Spark 新用户:https://t.co/BTPc41Uf9V https://t.co/7RwueWZo1x — # joeynyc/spark-doctor 来源:https://github.com/joeynyc/spark-doctor
Spark Doctor
NVIDIA DGX Spark 本地诊断命令行工具。收集系统、GPU、内存、Docker、运行时、网络和配方数据,应用 DGX Spark 特定规则,并输出简短结论:出了什么问题、原因以及下一步该尝试什么。
只读工具。无仪表盘。无自动修复。无遥测。
为什么需要它
DGX Spark 是一个新平台。当故障发生时,排查信息分散在 nvidia-smi、/proc/pressure/*、dmesg、docker info、后端日志、论坛帖子和现场诊断工具中。用户会反复遇到同样的问题——GPU 卡在 14W 低功耗状态、统一内存压力导致推理停滞、热关机、Docker 运行时未注册、配方中 tensor_parallel_size 设置为多 GPU 主机参数。
Spark Doctor 通过一条命令收集这些信号,应用 DGX Spark 特定规则,告诉你可能的原因和下一步操作——用简单的英文说明,并附带证据。
安装
git clone && cd spark-doctor
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
需要 Python 3.11+。
命令
spark-doctor scan # 完整扫描 + 诊断
spark-doctor scan --json scan.json --markdown report.md
spark-doctor doctor --from scan.json # 对已保存扫描重新应用规则
spark-doctor report --from scan.json --format {markdown,forum,github}
spark-doctor recipe check recipe.yaml
spark-doctor anonymize scan.json --out redacted.json
spark-doctor self-test
spark-doctor version
退出码:0 正常 · 1 警告 · 2 严重 · 3 采集器失败。
检测内容
| ID | 检测项 |
|---|---|
power.low_draw_under_load | GPU 利用率高但功耗异常低(例如 14W 限制) |
thermal.shutdown_risk | GPU 温度 ≥ 85/90°C 或日志中出现热事件 |
memory.uma_pressure | 可用内存低、内存 PSI 高或大量使用交换空间 |
runtime.docker_unhealthy | Docker / NVIDIA 容器运行时缺失或配置错误 |
backend.multiple_heavy_models | 同时运行两个或更多重型模型后端 |
配方验证器会检查:张量并行度 vs GPU 数量、容器镜像仓库、arm64 兼容性、内存预算、以及激进的 gpu_memory_utilization / 上下文长度。
隐私
报告默认匿名化:
- 主机名、用户名和 home 路径被替换。
- 私有 IPv4 和 MAC 地址被遮盖(除非使用
--include-network-identifiers)。 - HF、NGC、OpenAI、Bearer、JWT 和 SSH 密钥模式被遮盖。
- 日志(
dmesg、journalctl)仅在添加--include-logs时包含。
安全性
不进行软件包安装、驱动更新、进程终止、重启、锁定时钟或更改电源设置。所有修复措施均以指令形式提供。
开发
pip install -e '.[dev]'
pytest
新规则放在 src/spark_doctor/rules/,在 rules/engine.py 中注册,在 tests/fixtures/ 中添加夹具,并添加测试。
许可证
MIT。
相似文章
DGX Spark 智能体使用数据
一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置,重点关注包含并发请求和工具调用的智能体工作负载。
@LyalinDotCom: https://x.com/LyalinDotCom/status/2059023609536839684
比较在DGX Spark和MacBook Pro M5上运行Gemma 4的情况,作者对收到DGX Spark表示感谢。
Deepseek V4 flash 在 DGX Spark 上的性能
一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。
小众观点:DGX Spark 论坛的开发者社区天赋异禀,将凭意志力让有缺陷的硬件成功。
一篇观点文章,重点介绍蓬勃发展的 DGX Spark 开发者社区,该社区正在协作优化硬件,尽管存在局限性,还提到了 Sparkrun 和 PrismaQuant 等项目。
@antirez: 致DGX Spark用户。这就是你在硬件上使用DS4得到的效果。我想发布这个以展示,尽管生成速度不快,但快速的预填充使得系统仍然非常好用。
antirez分享了一个在DGX Spark上使用DS4的演示,展示了尽管生成速度慢,但快速的预填充保持了系统的可用性。