token-routing

标签

Cards List
#token-routing

通过学习的Token路由在Transformer中实现自适应计算深度

arXiv cs.LG · 2天前 缓存

本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈