太棒了。令牌速度翻倍 + KV缓存现在需要低显存 - Qwen 27B
摘要
一种名为kvflash的新型KV缓存优化,可在单张RTX 3090上使Qwen 3.6-27B的生成速度翻倍并降低显存使用,同时保持准确性。
"Qwen3.6-27B Q4_K_M on a single RTX 3090: native 256K context at 38.6 tok/s with 72 MiB of resident KV, needle recall 88-100% at 6% residency, harness accuracy unchanged (36/36 vs full cache)." 在相同硬件上,生成速度翻倍,显存使用显著降低(从21GB降至17.5GB),同时保持完整的上下文准确性。Fahd的YouTube视频 --> [https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP](https://youtu.be/8rTVCRWvRDo?si=MYiVrQQltbSsMAOP) GitHub链接 - [https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash](https://github.com/Luce-Org/lucebox-hub/tree/main/optimizations/kvflash) 质量损失??--> 质量结论(包含测试基准真实值、基础对比控制):完整结果见RESULTS.md。输出不保证在长生成长度上与完整缓存字节一致(掩码内核路径的舍入方式不同——不同的确定性路径),但正确性相同:在HumanEval、GSM、MATH和Agent套件上均为36/36 vs 36/36。
相似文章
[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速
在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示,针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速,且困惑度下降极小,其中 q4_0/turbo4 提供了最佳平衡。
@DeepTechTR: Qwen 3.6 27B 在16 GB VRAM下速度极快!Pure Quant技术带来的影响——27B模型流畅运行的时代已来临……
Qwen 3.6 27B 在16 GB VRAM上运行快速,得益于'Pure Quant'技术,通过MTP达到40 tokens/s,并支持64k上下文,使得本地AI能在RTX 4060 Ti等消费级GPU上运行。
两块旧款RTX 2080 Ti,每块22GB显存,运行Qwen3.6 27B,使用f16 KV缓存达到38 token/s
一位用户分享其配置:使用两块改装版RTX 2080 Ti GPU(每块22GB显存)通过llama.cpp以38 token/s运行Qwen 3.6 27B,并包含关于功耗限制、张量分割模式和KV缓存设置的技巧。
Wow!Qwen 3.6:35b-a3b 在 3090 上……太惊人了。
一位用户分享了在二手 RTX 3090 上运行量化版 Qwen 3.6:35b-a3b 模型的惊人结果:将模型放入显存后,输出速度达到每秒 160 个 token,并以 75 秒的视频处理时间展示了视觉能力。
@ItsmeAjayKV: 成就解锁:得益于RTX 3090,现在我可以运行Qwen3.6-27b密集模型。正在运行 @Alibaba_Qwen Qwen 3…
用户使用llama.cpp在RTX 3090上对Qwen3.6-27B进行基准测试,实现了35 tok/s的生成速度和1247 tok/s的提示处理速度。