@no_stp_on_snek:turboquant+ 现已成为 LocalAI 的可切换后端,与 tinygrad 和 sglang 并列

X AI KOLs Following 工具

摘要

LocalAI 新增 turboquant+ 后端,可在不升级硬件的情况下为 GGUF 模型提供更长上下文支持。

turboquant+ 现已成为 LocalAI 的可切换后端,与 tinygrad 和 sglang 并列。如果你在跑 GGUF 模型,又想在现有硬件上获得更长上下文,这是最简单的尝鲜方式。真香。https://github.com/TheTom/llama-cpp-turboquant…
查看原文

相似文章

@no_stp_on_snek: https://x.com/no_stp_on_snek/status/2052833502475833384

X AI KOLs Following

使用 Qwen2.5-32B-Instruct 搭配 longctx 和 vllm-turboquant 的单个 AMD MI300X 开源技术栈,在 MRCR v2 百万级上下文基准测试中取得了与 SubQ 闭源模型(0.659)相竞争的结果(0.601-0.688),表明开源权重方法已接近达到同等水平。