hadamard

标签

Cards List
#hadamard

Shard - 实现10倍KV缓存压缩

Reddit r/LocalLLaMA · 2026-05-26 缓存

Shard是一个即插即用的HuggingFace缓存,通过使用PCA加int4量化处理K(键),以及Hadamard旋转加向量量化处理V(值),为Llama-3.1-8B实现了10倍的KV缓存压缩,且在基准测试中无精度损失。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈