ppl

#ppl

@no_stp_on_snek：首次在我的 llamacpp 分支上测试了 MTP，使用 turbo4 sym。GX10 硬件。使用 MoE 模型：llmfa…

X AI KOLs Following ↗ · 2026-05-22 缓存

在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测，相比 fp16 基线获得了 +0.41% 的 PPL 提升。

0 人收藏 0 人点赞

#ppl

Reddit r/LocalLLaMA ↗ · 2026-05-19

一项详细的基准测试，使用PPL和KLD指标在Qwen 3.6 27B上比较KV缓存量化方法（TurboQuant、TCQ、q4、q5、q8），发现TCQ改进了低位量化，不对称KV在相同大小下优于对称KV，且q8通常过于夸张。包含分析和数据，见链接文章。

0 人收藏 0 人点赞