标签
作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。
分析了 Google 的 DiffusionGemma 模型发布的透明度,讨论了其对 AI 安全与问责的影响。
本文分析了在线策略蒸馏(OPD),发现OPD更新是稀疏的,分布在各个层且以FFN为主,并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用,但由于梯度尺度异质性,诱导稀疏性的SGD优化器表现不如AdamW。