@ivanfioravanti: M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。- 未连接外部显示器……
摘要
一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型(LLM)推理速度的影响,显示出在 Token 生成率和功耗方面存在显著差异。
关于 M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。
- 未连接外部显示器
- 模型本身并不重要,使用的是 DS4 Flash Q2
结果:
- 低性能模式:功耗约 25W,速度约 12 tokens/s
- 高性能模式:功耗约 120W,速度约 32 tokens/s
- 自动模式:根据 Mac 的风扇速度和温度,功耗在 40W(约 14 tokens/s)至 90W(约 29 tokens/s)之间波动。
如果你真的想将 MacBook 的性能压榨到极致,请使用高性能模式且不要连接外部显示器。连接外显时我观察到一种非常奇怪的行为,目前正在调查原因。
相似文章
@ivanfioravanti: Apple M5 Max + MLX = 原始算力!看看我正在玩的“FasterLivePortrait-MLX”演示,我从 MPS 开始,但结果不……
作者演示了在搭载 M5 Max 芯片的设备上,将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后,性能和速度有了显著提升。
@AlexJonesax:在M5Max上启用MTP和oMLX推理,Qwen3.6-27b飞速运行
社区报告称,通过oMLX优化,Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。
MiniMax 预告即将推出的 M3 模型:全新稀疏注意力机制,长上下文响应速度提升 15.6 倍(12 分钟阅读)
MiniMax 发布了关于其 M2 系列的详细技术报告,并预告了即将推出的 M3 模型。该模型采用一种新颖的稀疏注意力机制,在百万 token 上下文中实现高达 15.6 倍的解码速度提升。
本地模型优化(3 分钟阅读)
本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。
M5 vs DGX Spark vs Strix Halo vs RTX 6000
一位用户在过去3天内对M5 Mac、DGX Spark、Strix Halo和RTX 6000进行了AI工作负载的基准测试,并将结果发布到GitHub。M5在内存带宽和令牌生成方面优于DGX Spark,而MacBook的散热表现出奇地好,但噪音较大。