@no_stp_on_snek：turboquant+ 现已成为 LocalAI 的可切换后端，与 tinygrad 和 sglang 并列

X AI KOLs Following 2026/04/20 15:46 工具

摘要

LocalAI 新增 turboquant+ 后端，可在不升级硬件的情况下为 GGUF 模型提供更长上下文支持。

turboquant+ 现已成为 LocalAI 的可切换后端，与 tinygrad 和 sglang 并列。如果你在跑 GGUF 模型，又想在现有硬件上获得更长上下文，这是最简单的尝鲜方式。真香。https://github.com/TheTom/llama-cpp-turboquant…

查看原文

相似文章

@0xSero：GLM-5.1-478B-NVFP4 跑在：4×RTX Pro 6000、SGLang，最大 37 万 token（1.75× 满上下文），p10 27.7 | p90 45…

X AI KOLs Timeline

一份 478B 参数的量化 GLM-5.1 模型在 4 块 RTX Pro 6000 上用 SGLang 运行，支持 37 万 token 上下文，解码最高 45 tok/s，预填充 1340 tok/s，并现场演示操控 Figma。

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈，在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型（0.659）相竞争的结果（0.601-0.688），表明开源权重方法已接近达到同等水平。

Kimi K2.6 Unsloth GGUF 已发布

Reddit r/LocalLLaMA

Unsloth 推出了 Kimi K2.6 的 GGUF 量化版本，可在本地高效推理。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

@davis7：@0xSero 帮我把本地模型配置好了，我没想到它们现在竟然这么强大了。这算是前沿（frontier）级别了吗……