BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
token-skipping
标签
Cards
List
#token-skipping
@FinanceYF5: MoE 大模型可能有一半专家计算,其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力,但论文发现:很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”,最高跳过约 50% 专…
X AI KOLs Following
↗
· 2026-05-25
缓存
论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上,提出的ZEDA方法让模型学会跳过这些计算,最高节省一半专家计算。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交