@no_stp_on_snek: @antirez Turbo3 击败 fp8,在32K上下文下解码 tok/s 提升5%,还在调试中,但我一直在你的‘厨房’里折腾 TQ+

X AI KOLs Following 工具

摘要

Turbo3 在32K上下文下,相比 fp8 解码速度提升了5%(每秒 tokens 数),这是量化或模型优化方面的性能改进。

@antirez 🔥Turbo3 击败 fp8,在32K上下文下解码 tok/s 提升5% 还在调试中,但我一直在你的‘厨房’里折腾 TQ+
查看原文
查看缓存全文

缓存时间: 2026/05/25 22:45

@antirez

🔥Turbo3 在 32K 上下文下,解码速度比 fp8 提升 5%

还在调优,但我一直在你的厨房里捣鼓 TQ+

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。

@witcheer:大家都说NVFP4让黑伟德显卡“更快”。我在我的5090上对Qwen3.6-27B进行了三种方式的基准测试:>NVFP4 >普通Q4_K…

X AI KOLs Timeline

在RTX 5090上对Qwen3.6-27B进行的NVFP4基准测试显示,与同等比特的Q4_K_M相比,预填速度提升32-42%,与Q6_K相比提升52-68%,但解码速度提升有限(相比Q4提升+9%),因为解码受内存带宽限制。与Q6相比,质量损失极小(平均-0.8),使得NVFP4成为本地推理的不错选择。