@ivanfioravanti: M5 Max 的有趣视频，探讨低、自动和高性能模式对推理的影响。- 未连接外部显示器……

X AI KOLs Timeline 2026/05/12 21:33 新闻

摘要

一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型（LLM）推理速度的影响，显示出在 Token 生成率和功耗方面存在显著差异。

关于 M5 Max 的有趣视频，探讨低、自动和高性能模式对推理的影响。 - 未连接外部显示器 - 模型本身并不重要，使用的是 DS4 Flash Q2 结果： - 低性能模式：功耗约 25W，速度约 12 tokens/s - 高性能模式：功耗约 120W，速度约 32 tokens/s - 自动模式：根据 Mac 的风扇速度和温度，功耗在 40W（约 14 tokens/s）至 90W（约 29 tokens/s）之间波动。如果你真的想将 MacBook 的性能压榨到极致，请使用高性能模式且不要连接外部显示器。连接外显时我观察到一种非常奇怪的行为，目前正在调查原因。

查看原文

相似文章

@ivanfioravanti: Apple M5 Max + MLX = 原始算力！看看我正在玩的“FasterLivePortrait-MLX”演示，我从 MPS 开始，但结果不……

X AI KOLs Timeline

作者演示了在搭载 M5 Max 芯片的设备上，将 LivePortrait 的实现从 MPS 迁移到 Apple 的 MLX 框架后，性能和速度有了显著提升。

@AlexJonesax：在M5Max上启用MTP和oMLX推理，Qwen3.6-27b飞速运行

X AI KOLs Timeline

社区报告称，通过oMLX优化，Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。

本地模型优化（3 分钟阅读）

TLDR AI

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性，对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是，对于常规任务，本地模型速度快 2 倍，尽管在能力上略有差距，但仍是日常工作量中一半任务的实用选择。

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

X AI KOLs Following

MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：4×RTX 4090（96 GB）：71.52 tok/s，首 token 延迟 1045 ms；4×RTX 5090（128 GB）：120.54 tok/s，首 token 延迟 725 ms；1×RTX PRO 6000（96 GB）：118.74 tok/s，首 token 延迟 765 ms；DGX

@alexocheema：在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

X AI KOLs Timeline

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

相似文章

@ivanfioravanti: Apple M5 Max + MLX = 原始算力！看看我正在玩的“FasterLivePortrait-MLX”演示，我从 MPS 开始，但结果不……

@AlexJonesax：在M5Max上启用MTP和oMLX推理，Qwen3.6-27b飞速运行

本地模型优化（3 分钟阅读）

@stevibe：MiniMax M2.7 有 230B 参数，家里真能跑？我用 Unsloth 的 UD-IQ3_XXS（80 GB）在 4 套配置上实测：…

@alexocheema：在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

提交意见反馈