@ivanfioravanti: M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。- 未连接外部显示器……

X AI KOLs Timeline 新闻

摘要

一项性能测试展示了低、自动和高性能模式对 M5 Max MacBook 上大型语言模型(LLM)推理速度的影响,显示出在 Token 生成率和功耗方面存在显著差异。

关于 M5 Max 的有趣视频,探讨低、自动和高性能模式对推理的影响。 - 未连接外部显示器 - 模型本身并不重要,使用的是 DS4 Flash Q2 结果: - 低性能模式:功耗约 25W,速度约 12 tokens/s - 高性能模式:功耗约 120W,速度约 32 tokens/s - 自动模式:根据 Mac 的风扇速度和温度,功耗在 40W(约 14 tokens/s)至 90W(约 29 tokens/s)之间波动。 如果你真的想将 MacBook 的性能压榨到极致,请使用高性能模式且不要连接外部显示器。连接外显时我观察到一种非常奇怪的行为,目前正在调查原因。
查看原文

相似文章

本地模型优化(3 分钟阅读)

TLDR AI

本文分析了在 MacBook Pro 上本地运行 AI 推理的可行性,对比了本地 Qwen 35B 模型与云端 Claude Opus 4.5。结论是,对于常规任务,本地模型速度快 2 倍,尽管在能力上略有差距,但仍是日常工作量中一半任务的实用选择。

@alexocheema:在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。

X AI KOLs Timeline

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。