@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息，它可以在你的电脑上100%离线运行。他们刚刚展示了MTP（多…

X AI KOLs Following 2026/05/21 03:50 工具

local-llm multi-token-prediction inference-speed open-source qwen gpu-optimization

摘要

atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理，在Qwen 27B密集模型上实现了高达137%的加速，且准确率零损失。

来自atomic[.]chat的又一个本地LLM好消息，它可以在你的电脑上100%离线运行。他们刚刚展示了MTP（多令牌预测）将本地Qwen模型的密集27B版本从51个令牌/秒提升到117个令牌/秒。而一个MoE 35B-A3B型号在2块RTX 5090上从218个令牌/秒上升到267个令牌/秒。 MTP不是一次只生成和检查一个令牌，而是草拟多个未来令牌并将它们一起验证，这样GPU为每个输出的单词所做的重复工作就更少。当草拟令牌被足够频繁地接受时，这使得本地LLM速度更快。对于许多本地LLM运行而言，瓶颈不是纯粹的计算能力，而是内存带宽：GPU将权重持续送入计算的速度有多快。本地GPU生成文本时，大部分时间都花在反复从显存中拉取模型权重上，每个令牌都要这样。因此，如果MTP让模型在一次前向传播中检查多个草拟令牌，就减少了需要重复读取同一巨大权重矩阵的频率。他们测试中最有趣的宣称是约80%的草拟接受率，且准确率零损失，额外显存仅约1GB，因为推测解码只有在草拟令牌被足够频繁地接受时才变得有用。所以我们得到这一强大的本地AI结果，是因为它提升了生成速度而不改变模型回答，但密集模型是真正的赢家，因为内存带宽是其主要瓶颈。他们的GitHub仓库完全开源。

查看原文

查看缓存全文

缓存时间: 2026/05/21 08:13

本地LLM再迎利好：来自 atomic[.]chat 的消息，该工具完全离线运行在您的电脑上。

他们刚刚展示了MTP（多词预测）技术将本地Qwen模型的生成速度从51 tokens/s提升到117 tokens/s（稠密27B模型）。而在2×RTX 5090上，一款MoE 35B-A3B模型从218 tokens/s提升到了267 tokens/s。

MTP（多词预测）不逐个生成并检查token，而是同时草拟多个未来token并一起验证，这样GPU在输出每个词时减少了重复计算。

当草拟token被足够频繁地接受时，本地LLM就能大幅提速。

对许多本地LLM运行场景而言，瓶颈并非纯算力，而是内存带宽：GPU能多快地将权重送入计算单元。

本地GPU生成文本时，大部分时间都花在反复从显存读取模型权重上（每生成一个token都要读取一次）。因此，如果MTP能让模型在一次前向传播中同时检验多个草拟token，就能减少重复读取同一巨大权重矩阵的次数。

他们测试中最引人注目的结果是：草拟token接受率约为80%，且精度零损失，额外显存仅需约1GB。这是因为推测解码通常只在草拟token被足够频繁接受时才有效。

所以，我们看到了这一强大的本地AI成果：它在不改变模型答案的前提下提升了生成速度，而稠密模型才是真正的赢家，因为内存宽带是其首要瓶颈。

他们的GitHub仓库已完全开源。

atomic.chat (@atomic_chat_hq): MTP在Atomic Chat中让Qwen加速2.5倍

稠密vs MoE模型在2×RTX 5090上的对比 Qwen3.6 27B：51 → 117 tps (+137%) Qwen3.6 35B-A3B：218 → 267 tps (+25%)

MTP会提前草拟多个token，并在一次前向中验证。加速幅度取决于每次前向移动的内存数据量。稠密27B模型每次需读取全部27B参数。

相似文章

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

X AI KOLs Following

atomic.chat 优化了 Gemma 4 26B 在 LLaMA.cpp 中的推理性能，在 MacBook Pro M5 Max 上通过多 token 预测（MTP）推测解码实现了约 40% 的 token 生成提速。这对运行桌面应用、编程智能体和本地私有助手的本地 AI 用户来说是一个重大利好。

@rohanpaul_ai: atomic[.]chat（一款本地运行大语言模型的桌面应用）在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……

X AI KOLs Following

Liquid 的 LFM2.5-8B-A1B 在 MacBook Pro 上本地运行工具调用基准测试时，击败了 OpenAI 的 gpt-oss-20b，不仅完成了所有工具调用，耗时还缩短了一半以上，且内存占用更少。

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

X AI KOLs Following

Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行，实现每秒34个token，草稿接受率达90%，通过 TurboQuant、GGUF 和 llama.cpp 实现，展示了笔记本AI推理的重大进步。

@atomic_chat_hq: MTP 将 Qwen 速度提升 2.5 倍，在 Atomic Chat 中稠密模型与 MoE 模型在双 RTX 5090 上 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-…

X AI KOLs Timeline

Atomic Chat 的 MTP 技术利用推测解码，在双 RTX 5090 上将 Qwen 稠密模型的速度提升 2.5 倍，MoE 模型提升 25%，同时保持零精度损失，仅增加约 1 GB 显存，通过一次前向传播草拟并验证多个 token。

@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了：“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

X AI KOLs Timeline

OpenAI 发布了一款全新的 200 亿参数以上的 MoE 模型，通过 TurboQuant 量化为 3-bit 并利用 MLX 优化，使得在标准的 16GB MacBook 上进行高性能的本地 LLM 推理成为可能。

相似文章

@rohanpaul_ai: atomic[.]chat 让 Gemma 4 26B 在 LLaMA.cpp 中的运行速度更快，在 MacBook Pr… 上的 token 生成速度提升约 40%

@rohanpaul_ai: atomic[.]chat（一款本地运行大语言模型的桌面应用）在 MacBook 上进行了一场极具揭示性的本地 AI 智能体对比测试……

@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token，本地使用 atomic[.]chat，接受率达90%，即……

@atomic_chat_hq: MTP 将 Qwen 速度提升 2.5 倍，在 Atomic Chat 中稠密模型与 MoE 模型在双 RTX 5090 上 Qwen3.6 27B: 51 → 117 tps +137% Qwen3.6 35B-…

@DivyanshT91162: 本地 LLM 迈入了一个全新的阶段。这个 Hugging Face 的发布简直是疯了：“gpt-oss-20b-tq3” 这是一个官方的 200 亿+ …

提交意见反馈