@alexocheema:在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。
摘要
在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B(视觉版)。模型能描述图片并正确识别 Apple Park,但把 John Ternus 错认成 Jeff Williams。借助前缀缓存,响应几乎瞬间完成。
查看缓存全文
缓存时间: 未知
在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 的 RDMA 运行 Qwen3.6 35B(视觉版)。它能描述图片并正确识别 Apple Park,但把 John Ternus 误认成了 Jeff Williams。借助前缀缓存,响应几乎瞬时。
相似文章
@remilouf: 在 @julien_c 的推文之后,我买了一台配备 128B 统一内存的 MacBook Pro,并开始将 Qwen3.6 作为我的日常驱…
作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验,称赞了苹果硬件在本地 AI 推理方面的效率。
@AlexJonesax:在M5Max上启用MTP和oMLX推理,Qwen3.6-27b飞速运行
社区报告称,通过oMLX优化,Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。
@tom_doerr: 在 16GB 内存 Mac 上运行 35B 模型 https://github.com/walter-grace/mac-code…
该工具支持通过从 SSD 流式加载模型权重,在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型,经优化配置后最高可达 30 tok/s。
@Daniel_Farinax: 在 MacBook Pro M5 128GB MLX 上使用定制编码 CLI 优化运行 Qwen3.6-27B。也适用于 M1、M2、M3、M4 Mac…
Daniel Farinax 宣布推出一个定制 CLI,用于在 MacBook 上通过 MLX 运行 Qwen3.6-27B,正在招募测试人员,并转向 TypeScript 以加快迭代速度。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。