太棒了。令牌速度翻倍 + KV缓存现在需要低显存 - Qwen 27B

Reddit r/LocalLLaMA 2026/06/15 09:11 工具

kv-cache optimization qwen inference-speed vram-reduction open-source

摘要

一种名为kvflash的新型KV缓存优化，可在单张RTX 3090上使Qwen 3.6-27B的生成速度翻倍并降低显存使用，同时保持准确性。

"Qwen3.6-27B Q4_K_M on a single RTX 3090: native 256K context at 38.6 tok/s with 72 MiB of resident KV, needle recall 88-100% at 6% residency, harness accuracy unchanged (36/36 vs full cache)." 在相同硬件上，生成速度翻倍，显存使用显著降低（从21GB降至17.5GB），同时保持完整的上下文准确性。Fahd的YouTube视频 --> [https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP](https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP) GitHub链接 - [https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash](https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash) 质量损失？？--> 质量结论（包含测试基准真实值、基础对比控制）：完整结果见RESULTS.md。输出不保证在长生成长度上与完整缓存字节一致（掩码内核路径的舍入方式不同——不同的确定性路径），但正确性相同：在HumanEval、GSM、MATH和Agent套件上均为36/36 vs 36/36。

查看原文

太棒了。令牌速度翻倍 + KV缓存现在需要低显存 - Qwen 27B

相似文章

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快！Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……

两块旧款RTX 2080 Ti，每块22GB显存，运行Qwen3.6 27B，使用f16 KV缓存达到38 token/s

Wow！Qwen 3.6:35b-a3b 在 3090 上……太惊人了。

@ItsmeAjayKV: 成就解锁：得益于RTX 3090，现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…

提交意见反馈