@berryxia: 我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…
摘要
UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。
相似文章
@seclink: 这家伙刚刚在一块单张 3090 显卡上,跑出了 Qwen 3.5-27B Dense 模型 134 tok/s 的速度,以及新版 Qwen 3.6-27B 模型 73 tok/s 的速度。2026 年的开源社区,其发展速度简直如神速一般。…
A single RTX 3090 achieves 134 tok/s on the new 27B Qwen 3.5 Dense and 73 tok/s on Qwen 3.6-27B using fused kernels and speculative decoding, with same-day GGUF releases.
Qwen3.6 27B Pure Quant: 16 GB 显存下 40 tok/s
使用纯 Q4_K_M 方法对 Qwen3.6 27B 进行量化的版本完全适配 16 GB 显存,在 MTP 下可实现高达 40 tok/s 的 token 生成速度,相比其他 GGUF 变体显著缩小模型体积。
@cniongolo: 我不确定大家是否已经意识到,你实际上可以在双 GPU 上运行 Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF…
演示了在双路 Nvidia RTX PRO 6000 Blackwell GPU 上,使用 Hugging Face Inference 运行自定义 Qwen 模型(Qwen3.6-35B-A3B-Claude-4.7-Opus-abliterated-MTP-GGUF),达到每秒约 195 个 token 的处理速度。
@TeksEdge: Unsloth 发布了目前我测试过的最快的 Qwen3.6-27B MTP GGUF。是时候升级了。与之前的 GGUF 相比,Q4/Q6 XL 版本的推理速度快了约 55%…
Unsloth 发布了优化后的 Qwen3.6-27B MTP 模型 GGUF 版本,与前序量化版本相比,推理速度显著提升(在 RTX 5090 上最高可达 114 tok/s)。
@rohanpaul_ai: Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上达到每秒34个token,本地使用 atomic[.]chat,接受率达90%,即……
Qwen 3.6 27B 在 MacBook Pro M5 Max 64GB 上本地运行,实现每秒34个token,草稿接受率达90%,通过 TurboQuant、GGUF 和 llama.cpp 实现,展示了笔记本AI推理的重大进步。