@berryxia: 我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

X AI KOLs Timeline 模型

摘要

UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。

我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A3B版本更猛,冲到220 tokens/s。 比原版GGUF快超过1.4倍,精度零损失。 他们测了半天,发现draft tokens设成2就是甜点,再往上接受率暴跌,实际速度反而掉下去。 我看完那张benchmark曲线图,最大的感受是,本地大模型的性能天花板又被狠狠顶高了一截。 以前总觉得30B+模型本地跑太慢,现在MTP投机解码直接把消费级显卡的潜力榨干了。 如果你在玩llama.cpp、跑本地Agent或者日常coding,这波更新必须马上试。 本地AI越来越不像“妥协版”了。
查看原文

相似文章

Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s

Reddit r/LocalLLaMA

使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。