@no_stp_on_snek: @antirez Turbo3 击败 fp8，在32K上下文下解码 tok/s 提升5%，还在调试中，但我一直在你的‘厨房’里折腾 TQ+

X AI KOLs Following 2026/05/23 23:14 工具

turbo3 fp8 performance decode optimization quantization

摘要

Turbo3 在32K上下文下，相比 fp8 解码速度提升了5%（每秒 tokens 数），这是量化或模型优化方面的性能改进。

@antirez 🔥Turbo3 击败 fp8，在32K上下文下解码 tok/s 提升5% 还在调试中，但我一直在你的‘厨房’里折腾 TQ+

查看原文

查看缓存全文

缓存时间: 2026/05/25 22:45

@antirez

🔥Turbo3 在 32K 上下文下，解码速度比 fp8 提升 5%

还在调优，但我一直在你的厨房里捣鼓 TQ+

相似文章

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

@iotcoi：Qwen3.6-27B-FP8 + Dflash + DDTree，256k 上下文，10 个智能体，单颗 49W GB10 上峰值 200 tokens/s，平均解码 136 tokens/s

X AI KOLs Timeline

量化版 27B Qwen3.6 在单颗 49W GB10 GPU 上借助 Dflash+DDTree 优化，256k 上下文、10 智能体并发，峰值达 200 tok/s，平均 136 tok/s。

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈，在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型（0.659）相竞争的结果（0.601-0.688），表明开源权重方法已接近达到同等水平。

2倍 tok/s（在1块MI50上从19.4 tok/s提升到38.1 tok/s）尝试类似推测解码的假设……但不是用额外的侧模型，而是利用我可以同时运行多个计算，就好像内存里加载了两份Qwen3.6-27B一样——小量化不占用所有可用算力。

Reddit r/LocalLLaMA

打包双推理（PTI）是一种通过单批解码中运行多个token序列来实现约2倍LLM吞吐量的技术，它利用了llama.cpp中的权重共享，无需草稿模型或额外VRAM。

@witcheer：大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试：>NVFP4 >普通Q4_K…