llm-inference-acceleration

标签

#llm-inference-acceleration

基于强化学习的经验驱动式LLM动态退出策略

arXiv cs.CL ↗ · 2026-06-03 缓存

介绍了LEDE，一个利用离线强化学习动态选择退出层和推测长度的框架，用于LLM的自推测解码，相较于自回归解码实现了高达2.7倍的加速。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈