model-analysis

#model-analysis

I mapped the KLD of KV cache quantization for Qwen3.6-35B-A3B and Gemma4-E2B QAT

Reddit r/LocalLLaMA ↗ · 7h ago

The author maps the Kullback-Leibler divergence of KV cache quantization for the Qwen3.6-35B-A3B and Gemma4-E2B QAT models.

0 favorites 0 likes

#model-analysis

Auditing DiffusionGemma Transparency (9 minute read)

TLDR AI ↗ · yesterday Cached

An analysis of how transparent Google's DiffusionGemma model release is, discussing the implications for AI safety and accountability.

0 favorites 0 likes

#model-analysis

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Hugging Face Daily Papers ↗ · 2026-06-11 Cached

This paper analyzes on-policy distillation (OPD), finding that OPD updates are sparse, distributed across layers and FFN-heavy, and retain geometric properties distinct from dense parameter rewriting. The sparse structure is operationally useful, but sparsity-inducing SGD underperforms AdamW due to heterogeneous gradient scales.

0 favorites 0 likes

model-analysis

I mapped the KLD of KV cache quantization for Qwen3.6-35B-A3B and Gemma4-E2B QAT

Auditing DiffusionGemma Transparency (9 minute read)

Dense Supervision, Sparse Updates: On the Sparsity and Geometry of On-Policy Distillation

Submit Feedback