@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…

X AI KOLs Following 工具

摘要

atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。

来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。 他们刚刚展示了MTP(多令牌预测)将本地Qwen模型的密集27B版本从51个令牌/秒提升到117个令牌/秒。 而一个MoE 35B-A3B型号在2块RTX 5090上从218个令牌/秒上升到267个令牌/秒。 MTP不是一次只生成和检查一个令牌,而是草拟多个未来令牌并将它们一起验证,这样GPU为每个输出的单词所做的重复工作就更少。 当草拟令牌被足够频繁地接受时,这使得本地LLM速度更快。 对于许多本地LLM运行而言,瓶颈不是纯粹的计算能力,而是内存带宽:GPU将权重持续送入计算的速度有多快。 本地GPU生成文本时,大部分时间都花在反复从显存中拉取模型权重上,每个令牌都要这样。因此,如果MTP让模型在一次前向传播中检查多个草拟令牌,就减少了需要重复读取同一巨大权重矩阵的频率。 他们测试中最有趣的宣称是约80%的草拟接受率,且准确率零损失,额外显存仅约1GB,因为推测解码只有在草拟令牌被足够频繁地接受时才变得有用。 所以我们得到这一强大的本地AI结果,是因为它提升了生成速度而不改变模型回答,但密集模型是真正的赢家,因为内存带宽是其主要瓶颈。 他们的GitHub仓库完全开源。
查看原文
查看缓存全文

缓存时间: 2026/05/21 08:13

本地LLM再迎利好:来自 atomic[.]chat 的消息,该工具完全离线运行在您的电脑上。

他们刚刚展示了MTP(多词预测)技术将本地Qwen模型的生成速度从51 tokens/s提升到117 tokens/s(稠密27B模型)。而在2×RTX 5090上,一款MoE 35B-A3B模型从218 tokens/s提升到了267 tokens/s。

MTP(多词预测)不逐个生成并检查token,而是同时草拟多个未来token并一起验证,这样GPU在输出每个词时减少了重复计算。

当草拟token被足够频繁地接受时,本地LLM就能大幅提速。

对许多本地LLM运行场景而言,瓶颈并非纯算力,而是内存带宽:GPU能多快地将权重送入计算单元。

本地GPU生成文本时,大部分时间都花在反复从显存读取模型权重上(每生成一个token都要读取一次)。因此,如果MTP能让模型在一次前向传播中同时检验多个草拟token,就能减少重复读取同一巨大权重矩阵的次数。

他们测试中最引人注目的结果是:草拟token接受率约为80%,且精度零损失,额外显存仅需约1GB。这是因为推测解码通常只在草拟token被足够频繁接受时才有效。

所以,我们看到了这一强大的本地AI成果:它在不改变模型答案的前提下提升了生成速度,而稠密模型才是真正的赢家,因为内存宽带是其首要瓶颈。

他们的GitHub仓库已完全开源。

atomic.chat (@atomic_chat_hq): MTP在Atomic Chat中让Qwen加速2.5倍

稠密vs MoE模型在2×RTX 5090上的对比 Qwen3.6 27B:51 → 117 tps (+137%) Qwen3.6 35B-A3B:218 → 267 tps (+25%)

MTP会提前草拟多个token,并在一次前向中验证。加速幅度取决于每次前向移动的内存数据量。稠密27B模型每次需读取全部27B参数。

相似文章