标签
一项对8个小型LLM(参数规模从1.35亿到约10亿)在售价250美元的Jetson Orin Nano Super上进行的深入基准测试,涵盖四种功率模式,发现25W是帕累托最优模式,其中SmolLM2-135M达到165.1 tok/s,效率最高。
一位用户对 RTX 5090 和 RTX 6000 PRO 系列 GPU 进行 AI 扩散任务基准测试,比较不同功耗限制下的性能,展示了速度与功耗之间的权衡。
一位用户分享了在运行Qwen3.6-27B与vLLM的4x RTX 3090平台上进行的功耗限制测试,发现220W是在最小化吞吐量损失下实现峰值效率的甜点。
一位用户使用 llama.cpp 对 Nvidia 5090 RTX GPU 进行 LLM 推理基准测试,测量了不同功耗水平下的提示处理和 token 生成情况,发现提示处理对功耗限制更为敏感,而 token 生成相对不敏感,并指出了与 4090 RTX 的差异。
用户实测两台华硕 GX10(DGX Spark)运行 MiniMax-M2.7-AWQ-4bit,每块仅约 100 W,生成速度 30–40 tokens/s,彻底替代嘈杂的多 GPU 机架。