@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……

X AI KOLs Following 新闻

摘要

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,达到每秒34个token,使用 atomic[.]chat,接受率达90%,即大多数草稿token与主模型本应生成的token匹配,因此速度提升并非来自跳过质量检查,而是避免了重复的全量解码工作。TurboQuant 和 GGUF 处理存储和运行时方面:模型被压缩到足以本地运行,而 llama.cpp 可以高效地向 Apple Silicon 提供数据,无需等待巨大的权重移动。这是一个相当厉害的本地推理结果,改变了人们对“笔记本AI”的体验感受。
查看原文

相似文章