@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%
摘要
atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。
atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度大幅提升,在 MacBook Pro M5 Max 的测试中,token 生成速度提高了约 40%。这对本地大模型来说是个好消息——LLaMA.cpp 和 GGUF 与本地 AI 用户群联系紧密,其支持往往延伸至桌面应用、编程智能体和本地私有助手。MTP(多 token 预测)的工作原理类似于一个小型助手提前起草接下来的几个词,再由主模型判断这些词是否可以接受。如果草稿正确,系统就会快速接受多个 token;如果草稿有误,系统则会拒绝错误部分,回退到正常的生成流程。
相似文章
@Freerunnering: 这实际上使得Gemma 4 26B-4A在我的MacBook Pro M1 Max上以72tk/s的速度可用于编码代理。这个视频是实时的,…
Unsloth AI宣布,Gemma 4在MTP GGUFs上运行速度快了2倍,使得在如MacBook Pro M1 Max这样的硬件上以72 tokens/s的速度运行本地编码代理成为可能。
LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%
llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。
@rohanpaul_ai: atomic[.]chat(一款本地运行大语言模型的桌面应用)在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……
Liquid 的 LFM2.5-8B-A1B 在 MacBook Pro 上本地运行工具调用基准测试时,击败了 OpenAI 的 gpt-oss-20b,不仅完成了所有工具调用,耗时还缩短了一半以上,且内存占用更少。
@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…
atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。