太棒了。令牌速度翻倍 + KV缓存现在需要低显存 - Qwen 27B

Reddit r/LocalLLaMA 工具

摘要

一种名为kvflash的新型KV缓存优化,可在单张RTX 3090上使Qwen 3.6-27B的生成速度翻倍并降低显存使用,同时保持准确性。

"Qwen3.6-27B Q4_K_M on a single RTX 3090: native 256K context at 38.6 tok/s with 72 MiB of resident KV, needle recall 88-100% at 6% residency, harness accuracy unchanged (36/36 vs full cache)." 在相同硬件上,生成速度翻倍,显存使用显著降低(从21GB降至17.5GB),同时保持完整的上下文准确性。Fahd的YouTube视频 --> [https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP](https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP) GitHub链接 - [https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash](https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash) 质量损失??--> 质量结论(包含测试基准真实值、基础对比控制):完整结果见RESULTS.md。输出不保证在长生成长度上与完整缓存字节一致(掩码内核路径的舍入方式不同——不同的确定性路径),但正确性相同:在HumanEval、GSM、MATH和Agent套件上均为36/36 vs 36/36。
查看原文

相似文章

Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

Reddit r/artificial

一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。