token-skipping

标签

#token-skipping

超越单维压缩：大语言模型的复合稀疏前沿

arXiv cs.LG ↗ · 2天前缓存

本文提出了一种针对LLM的复合稀疏框架，结合了静态参数剪枝与动态令牌级计算，表明混合这两种机制优于单维压缩，并能延迟性能退化。

0 人收藏 0 人点赞

#token-skipping

@FinanceYF5: MoE 大模型可能有一半专家计算，其实都花在了不需要专家的 token 上 1/ 一半专家白忙了 MoE 模型看起来已经很省算力，但论文发现：很多 token 根本不需要专家处理。 ZEDA 让模型学会“该省就省”，最高跳过约 50% 专…

X AI KOLs Following ↗ · 2026-05-25 缓存

论文发现MoE大模型中约50%的专家计算浪费在不需要专家处理的token上，提出的ZEDA方法让模型学会跳过这些计算，最高节省一半专家计算。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈