@Jianlin_S: MoE (9): 门控归一化之争

X AI KOLs Timeline 论文

摘要

一篇讨论混合专家(MoE)模型中门控归一化之争的博客文章。

MoE (9): 门控归一化之争 https://kexue.fm/archives/11782
查看原文

相似文章

Transformer 中的专家混合模型 (MoEs)

Hugging Face Blog

Hugging Face 的博客文章,介绍 Transformer 中的专家混合模型 (MoEs) 架构,涵盖从密集模型到稀疏模型的转变、权重加载优化、专家并行计算以及基于 MoE 的语言模型训练技术。

MoE专业化中的几何不对称性:功能去相关与表示重叠

arXiv cs.LG

本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。