routing-sparsity

标签

Cards List
#routing-sparsity

MoE专业化中的几何不对称性:功能去相关与表示重叠

arXiv cs.LG · 2026-05-19 缓存

本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈