model-analysis

标签

Cards List
#model-analysis

我绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图

Reddit r/LocalLLaMA · 5小时前

作者绘制了Qwen3.6-35B-A3B和Gemma4-E2B QAT模型的KV缓存量化的KL散度图。

0 人收藏 0 人点赞
#model-analysis

评估 DiffusionGemma 透明度(9分钟阅读)

TLDR AI · 昨天 缓存

分析了 Google 的 DiffusionGemma 模型发布的透明度,讨论了其对 AI 安全与问责的影响。

0 人收藏 0 人点赞
#model-analysis

密集监督,稀疏更新:论在线策略蒸馏的稀疏性与几何特性

Hugging Face Daily Papers · 2026-06-11 缓存

本文分析了在线策略蒸馏(OPD),发现OPD更新是稀疏的,分布在各个层且以FFN为主,并且保留了与密集参数重写不同的几何特性。这种稀疏结构在操作上有用,但由于梯度尺度异质性,诱导稀疏性的SGD优化器表现不如AdamW。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈