@ivanfioravanti: M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。- 未连接外部显示器……
摘要
一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型(LLM)推理速度的影响,显示出在 Token 生成率和功耗方面存在显著差异。
关于 M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。
- 未连接外部显示器
- 模型本身并不重要,使用的是 DS4 Flash Q2
结果:
- 低性能模式:功耗约 25W,速度约 12 tokens/s
- 高性能模式:功耗约 120W,速度约 32 tokens/s
- 自动模式:根据 Mac 的风扇速度和温度,功耗在 40W(约 14 tokens/s)至 90W(约 29 tokens/s)之间波动。
如果你真的想将 MacBook 的性能压榨到极致,请使用高性能模式且不要连接外部显示器。连接外显时我观察到一种非常奇怪的行为,目前正在调查原因。
相似文章
@ivanfioravanti: Apple M5 Max + MLX = 原始算力!看看我正在玩的“FasterLivePortrait-MLX”演示,我从 MPS 开始,但结果不……
作者演示了在搭载 M5 Max 芯片的设备上,将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后,性能和速度有了显著提升。
@AlexJonesax:在M5Max上启用MTP和oMLX推理,Qwen3.6-27b飞速运行
社区报告称,通过oMLX优化,Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。
本地模型优化(3 分钟阅读)
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
@stevibe:MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:…
MiniMax M2.7 有 230B 参数,家里真能跑?我用 Unsloth 的 UD-IQ3_XXS(80 GB)在 4 套配置上实测:4×RTX 4090(96 GB):71.52 tok/s,首 token 延迟 1045 ms;4×RTX 5090(128 GB):120.54 tok/s,首 token 延迟 725 ms;1×RTX PRO 6000(96 GB):118.74 tok/s,首 token 延迟 765 ms;DGX
@alexocheema:在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。
在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。