@aijoey: 给我的所有新DGX Spark用户. https://github.com/joeynyc/spark-doctor…

X AI KOLs Timeline 工具

摘要

Spark Doctor 是一个开源的诊断命令行工具,专为NVIDIA DGX Spark设计,可收集系统、GPU、内存、Docker和配方数据,应用特定规则,并输出常见问题的可能原因及后续步骤。

给我的所有新DGX Spark用户。 https://t.co/BTPc41Uf9V https://t.co/7RwueWZo1x
查看原文
查看缓存全文

缓存时间: 2026/06/24 12:23

致所有 DGX Spark 新用户:https://t.co/BTPc41Uf9V https://t.co/7RwueWZo1x — # joeynyc/spark-doctor 来源:https://github.com/joeynyc/spark-doctor

Spark Doctor

NVIDIA DGX Spark 本地诊断命令行工具。收集系统、GPU、内存、Docker、运行时、网络和配方数据,应用 DGX Spark 特定规则,并输出简短结论:出了什么问题、原因以及下一步该尝试什么。
只读工具。无仪表盘。无自动修复。无遥测。

为什么需要它

DGX Spark 是一个新平台。当故障发生时,排查信息分散在 nvidia-smi/proc/pressure/*dmesgdocker info、后端日志、论坛帖子和现场诊断工具中。用户会反复遇到同样的问题——GPU 卡在 14W 低功耗状态、统一内存压力导致推理停滞、热关机、Docker 运行时未注册、配方中 tensor_parallel_size 设置为多 GPU 主机参数。
Spark Doctor 通过一条命令收集这些信号,应用 DGX Spark 特定规则,告诉你可能的原因和下一步操作——用简单的英文说明,并附带证据。

安装

git clone && cd spark-doctor
python3 -m venv .venv && source .venv/bin/activate
pip install -e .

需要 Python 3.11+。

命令

spark-doctor scan                     # 完整扫描 + 诊断
spark-doctor scan --json scan.json --markdown report.md
spark-doctor doctor --from scan.json   # 对已保存扫描重新应用规则
spark-doctor report --from scan.json --format {markdown,forum,github}
spark-doctor recipe check recipe.yaml
spark-doctor anonymize scan.json --out redacted.json
spark-doctor self-test
spark-doctor version

退出码:0 正常 · 1 警告 · 2 严重 · 3 采集器失败。

检测内容

ID检测项
power.low_draw_under_loadGPU 利用率高但功耗异常低(例如 14W 限制)
thermal.shutdown_riskGPU 温度 ≥ 85/90°C 或日志中出现热事件
memory.uma_pressure可用内存低、内存 PSI 高或大量使用交换空间
runtime.docker_unhealthyDocker / NVIDIA 容器运行时缺失或配置错误
backend.multiple_heavy_models同时运行两个或更多重型模型后端

配方验证器会检查:张量并行度 vs GPU 数量、容器镜像仓库、arm64 兼容性、内存预算、以及激进的 gpu_memory_utilization / 上下文长度。

隐私

报告默认匿名化:

  • 主机名、用户名和 home 路径被替换。
  • 私有 IPv4 和 MAC 地址被遮盖(除非使用 --include-network-identifiers)。
  • HF、NGC、OpenAI、Bearer、JWT 和 SSH 密钥模式被遮盖。
  • 日志(dmesgjournalctl)仅在添加 --include-logs 时包含。

安全性

不进行软件包安装、驱动更新、进程终止、重启、锁定时钟或更改电源设置。所有修复措施均以指令形式提供。

开发

pip install -e '.[dev]'
pytest

新规则放在 src/spark_doctor/rules/,在 rules/engine.py 中注册,在 tests/fixtures/ 中添加夹具,并添加测试。

许可证

MIT。

相似文章

DGX Spark 智能体使用数据

Reddit r/LocalLLaMA

一位用户分享了在 NVIDIA DGX Spark 上使用 vLLM 运行 Qwen3.6 模型的基准测试结果和配置,重点关注包含并发请求和工具调用的智能体工作负载。

Deepseek V4 flash 在 DGX Spark 上的性能

Reddit r/LocalLLaMA

一位 Reddit 用户分享了在双华硕 GX10 DGX Spark 配置上运行 DeepSeek V4 Flash 的经验,详细介绍了性能指标、配置和功耗,并提供了不同上下文长度下的吞吐量基准测试结果。