@alexocheema：在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

X AI KOLs Timeline 2026/04/21 01:13 新闻

apple-silicon local-inference vision-model thunderbolt rdma multimodal

摘要

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 RDMA 运行 Qwen3.6 35B（视觉版）。模型能描述图片并正确识别 Apple Park，但把 John Ternus 错认成 Jeff Williams。借助前缀缓存，响应几乎瞬间完成。

查看原文

查看缓存全文

缓存时间: 未知

在两台 M5 Max MacBook Pro 上通过 Thunderbolt 5 的 RDMA 运行 Qwen3.6 35B（视觉版）。它能描述图片并正确识别 Apple Park，但把 John Ternus 误认成了 Jeff Williams。借助前缀缓存，响应几乎瞬时。

相似文章

X AI KOLs Following

作者分享了在配备 128GB 统一内存的 MacBook Pro 上运行 Qwen3.6 模型的经验，称赞了苹果硬件在本地 AI 推理方面的效率。

X AI KOLs Timeline

社区报告称，通过oMLX优化，Qwen3.6-27b模型在M5Max硬件上实现了极高的推理性能。

X AI KOLs Timeline

该工具支持通过从 SSD 流式加载模型权重，在 16GB Mac 上运行 Qwen3.5-35B 等大型语言模型，经优化配置后最高可达 30 tok/s。

X AI KOLs Timeline

Daniel Farinax 宣布推出一个定制 CLI，用于在 MacBook 上通过 MLX 运行 Qwen3.6-27B，正在招募测试人员，并转向 TypeScript 以加快迭代速度。

X AI KOLs Following

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行，实现每秒34个token，草稿接受率达90%，通过 TurboQuant、GGUF 和 llama.cpp 实现，展示了笔记本AI推理的重大进步。