content-based-routing

标签

Cards List
#content-based-routing

[R] 所有路线都通向崩溃:注意力沉没、表示坍塌和范数分层——盲范数度量下基于内容的路由的后果

Reddit r/MachineLearning · 17小时前 缓存

本文证明,注意力沉没、表示坍塌和范数分层并非注意力机制所独有,而是基于内容的路由在盲范数相似性度量下的普遍结果,这一结论在包括Transformer、graph attention、state-space models和recurrent mixers在内的多种架构中得到了验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈