mixed-precision

标签

Cards List
#mixed-precision

RateQuant:基于率失真理论的优化混合精度KV Cache量化

arXiv cs.LG · 2天前 缓存

本文介绍了 RateQuant,一种用于优化混合精度 KV Cache 量化的方法。该方法利用率失真理论解决失真模型不匹配问题,与 KIVI 和 QuaRot 等现有方法相比,在极低的校准开销下显著降低了困惑度。

0 人收藏 0 人点赞
#mixed-precision

Qwen3.6-27B 各量化格式 KLD 对比:INT 与 NVFP

Reddit r/LocalLLaMA · 2026-04-22

Reddit 帖子对比了 Qwen3.6-27B 的多种量化版本(INT4、NVFP4、BF16-INT4),展示不同场景下内存占用与精度的权衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈