@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…
摘要
atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。
查看缓存全文
缓存时间: 2026/05/21 08:13
本地LLM再迎利好:来自 atomic[.]chat 的消息,该工具完全离线运行在您的电脑上。
他们刚刚展示了MTP(多词预测)技术将本地Qwen模型的生成速度从51 tokens/s提升到117 tokens/s(稠密27B模型)。而在2×RTX 5090上,一款MoE 35B-A3B模型从218 tokens/s提升到了267 tokens/s。
MTP(多词预测)不逐个生成并检查token,而是同时草拟多个未来token并一起验证,这样GPU在输出每个词时减少了重复计算。
当草拟token被足够频繁地接受时,本地LLM就能大幅提速。
对许多本地LLM运行场景而言,瓶颈并非纯算力,而是内存带宽:GPU能多快地将权重送入计算单元。
本地GPU生成文本时,大部分时间都花在反复从显存读取模型权重上(每生成一个token都要读取一次)。因此,如果MTP能让模型在一次前向传播中同时检验多个草拟token,就能减少重复读取同一巨大权重矩阵的次数。
他们测试中最引人注目的结果是:草拟token接受率约为80%,且精度零损失,额外显存仅需约1GB。这是因为推测解码通常只在草拟token被足够频繁接受时才有效。
所以,我们看到了这一强大的本地AI成果:它在不改变模型答案的前提下提升了生成速度,而稠密模型才是真正的赢家,因为内存宽带是其首要瓶颈。
他们的GitHub仓库已完全开源。
atomic.chat (@atomic_chat_hq): MTP在Atomic Chat中让Qwen加速2.5倍
稠密vs MoE模型在2×RTX 5090上的对比 Qwen3.6 27B:51 → 117 tps (+137%) Qwen3.6 35B-A3B:218 → 267 tps (+25%)
MTP会提前草拟多个token,并在一次前向中验证。加速幅度取决于每次前向移动的内存数据量。稠密27B模型每次需读取全部27B参数。
相似文章
@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快,在 MacBook Pr… 上的 token 生成速度提升约 40%
atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能,在 MacBook Pro M5 Max 上通过多 token 预测(MTP)推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。
@rohanpaul_ai: atomic[.]chat(一款本地运行大语言模型的桌面应用)在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……
Liquid 的 LFM2.5-8B-A1B 在 MacBook Pro 上本地运行工具调用基准测试时,击败了 OpenAI 的 gpt-oss-20b,不仅完成了所有工具调用,耗时还缩短了一半以上,且内存占用更少。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。
@atomic_chat_hq: MTP 将 Qwen 速度提升 2.5 倍,在 Atomic Chat 中稠密模型与 MoE 模型在双 RTX 5090 上 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-…
Atomic Chat 的 MTP 技术利用推测解码,在双 RTX 5090 上将 Qwen 稠密模型的速度提升 2.5 倍,MoE 模型提升 25%,同时保持零精度损失,仅增加约 1 GB 显存,通过一次前向传播草拟并验证多个 token。
@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了:“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …
OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型,通过 TurboQuant 量化为 3-bit 并利用 MLX 优化,使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。