multi-token-prediction

标签

Cards List
#multi-token-prediction

README_EN.md · openpangu/openPangu-2.0-Flash at main

Reddit r/LocalLLaMA · 18小时前 缓存

openPangu-2.0-Flash 是一个拥有920亿参数(其中60亿激活参数)的MoE模型,基于昇腾训练,支持512k上下文长度并具备快速思考能力。它在推理和编码基准测试上表现强劲,采用了MLA注意力及多令牌预测等架构创新。

0 人收藏 0 人点赞
#multi-token-prediction

@ollama:Gemma 4 在 Apple Silicon 上使用 Ollama 和 MLX 提速近 90%!性能提升得益于改进的多 token 预…

X AI KOLs Following · 昨天 缓存

Ollama 宣布,Gemma 4 在 Apple Silicon 上使用 MLX 后速度提升近 90%,这得益于默认启用的改进多 token 预测机制,并支持自动调节以避免减速。

0 人收藏 0 人点赞
#multi-token-prediction

EntMTP:利用熵引导的多令牌预测加速大语言模型推理

arXiv cs.CL · 3天前 缓存

提出EntMTP,一种无需训练的调度器,基于局部熵估计自适应调整树形注意力拓扑以进行投机解码,相较于Hydra实现1.09-1.15倍加速,相较于Medusa最高达1.36倍加速。

0 人收藏 0 人点赞
#multi-token-prediction

利用冻结的多令牌预测在Pixel上加速Gemini Nano模型(10分钟阅读)

TLDR AI · 3天前 缓存

谷歌研究院推出了一种新架构,使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型,显著提升了设备端AI特性的速度和能效。

0 人收藏 0 人点赞
#multi-token-prediction

量化是否会影响MTP的草案率?

Reddit r/LocalLLaMA · 4天前

本文探讨了量化是否会影响多token预测模型中的草案率,并分析了模型压缩与推理效率之间的潜在权衡。

0 人收藏 0 人点赞
#multi-token-prediction

关于推测解码/MTP的交互式解释器

Reddit r/LocalLLaMA · 5天前 缓存

一个交互式指南,解释了大语言模型中的推测解码和多令牌预测,涵盖了从拒绝采样到Qwen 3.6和Gemma 4中使用的MTP等技术,配有实时图表和滑块。

0 人收藏 0 人点赞
#multi-token-prediction

MTP 下的质量较差 - Qwen 3.6, Gemma 4

Reddit r/LocalLLaMA · 6天前

用户报告称,Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本,尽管其 token 生成速率更高,但实际速度提升微乎其微。

0 人收藏 0 人点赞
#multi-token-prediction

@jakevin7: 最近在看 GLM 5.2 相关的文档,发现一些有趣的内容分享一下。 GLM-5.2 用了 MTP(Multi-Token Prediction)来加速推理:用一个轻量的"草稿模型"先快速预测多个 token,再用大模型一次性验证,接受则跳…

X AI KOLs Following · 2026-06-19 缓存

GLM-5.2采用了MTP(Multi-Token Prediction)技术加速推理,并修复了GLM-5.1中MTP训练推理不一致导致的KV cache混用问题。

0 人收藏 0 人点赞
#multi-token-prediction

SuperThoughts:叠加态中的推理令牌

arXiv cs.LG · 2026-06-15 缓存

SuperThoughts 将连续的思维链令牌压缩为潜在表示,并每步解码两个令牌,在数学推理基准上实现了约20-30%的思维链长度缩减,准确率损失极小,同时将推理吞吐量提高了一倍。

0 人收藏 0 人点赞
#multi-token-prediction

@no_stp_on_snek: 顺便说一下,这就是我的循环。如你所见,我并没有花太多心思在上面(还有拼写错误什么的),只是评估质量的一个附带任务……

X AI KOLs Following · 2026-06-14 缓存

发布 Qwopus3.6-27B-v2-MTP,这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型,针对编码、DevOps 和数学任务进行了优化,并提升了生成速度。

0 人收藏 0 人点赞
#multi-token-prediction

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

Reddit r/LocalLLaMA · 2026-06-11 缓存

NVIDIA发布了Nemotron 3开放模型,提供了Nano、Super、Ultra三种尺寸,通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率,并采用Open MDW 1.1开放许可协议。

0 人收藏 0 人点赞
#multi-token-prediction

突破熵界:通过带拒绝采样的多 token 预测加速 RL 训练

Hugging Face Daily Papers · 2026-06-10 缓存

Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。

0 人收藏 0 人点赞
#multi-token-prediction

关于在Hopper上使DeepSeek V4 Flash达到近200 tok/s的一些技巧

Reddit r/LocalLLaMA · 2026-06-08 缓存

这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理,达到近200令牌/秒的技巧和基准测试,重点介绍了使用Canada-Quant的量化检查点和张量并行优化。

0 人收藏 0 人点赞
#multi-token-prediction

llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试(t/s)

Reddit r/LocalLLaMA · 2026-06-03

llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。

0 人收藏 0 人点赞
#multi-token-prediction

使用LiteRT引擎运行Gemma 4 E4B —— 文本生成比Q4 GGUF快约2.4倍,图像处理速度基本持平

Reddit r/LocalLLaMA · 2026-06-02

开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比,发现由于多令牌预测(MTP),文本生成速度提升约2.4倍,但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装,但存在确定输出、单会话引擎等限制。

0 人收藏 0 人点赞
#multi-token-prediction

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

Hugging Face Models Trending · 2026-06-02 缓存

bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。

0 人收藏 0 人点赞
#multi-token-prediction

unsloth 与 bartowski MTP GGUF 对比

Reddit r/LocalLLaMA · 2026-06-01

对比 unsloth 和 bartowski 在不同尺寸和量化级别下的 Qwen 模型 MTP GGUF 量化方案,发现 unsloth 的 GGUF 通常更小,解码速度相近或更快;MTP 对较大的稠密模型收益更明显。

0 人收藏 0 人点赞
#multi-token-prediction

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍,这是我的发现(RTX 6000 PRO)。

Reddit r/LocalLLaMA · 2026-05-29

使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。

0 人收藏 0 人点赞
#multi-token-prediction

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞
#multi-token-prediction

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了! llama.cpp 原生支持 MTP(多令牌预测): - 无需额外 dr…

X AI KOLs Timeline · 2026-05-26 缓存

llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈