parallel-decoding

标签

Cards List
#parallel-decoding

LACE: 用于跨线程探索的格子注意力机制

arXiv cs.AI · 2026-04-20 缓存

LACE 引入了一种格子注意力机制,使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误,相比标准的独立并行采样,推理准确度提高了7个多百分点。

0 人收藏 0 人点赞
#parallel-decoding

及时止损!学习早期剪枝路径以实现高效并行推理

Hugging Face Daily Papers · 2026-04-17 缓存

本文介绍了STOP(用于剪枝的超令牌),一种轻量级方法,通过在并行解码中附加可学习令牌并读取KV缓存状态,学会早期剪枝不优的推理路径,在AIME和GPQA基准测试中实现70%的令牌减少,同时提高性能。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈