parallel-decoding

#parallel-decoding

LACE: 用于跨线程探索的格子注意力机制

arXiv cs.AI ↗ · 2026-04-20 缓存

LACE 引入了一种格子注意力机制，使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误，相比标准的独立并行采样，推理准确度提高了7个多百分点。

0 人收藏 0 人点赞

#parallel-decoding

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

本文介绍了STOP（用于剪枝的超令牌），一种轻量级方法，通过在并行解码中附加可学习令牌并读取KV缓存状态，学会早期剪枝不优的推理路径，在AIME和GPQA基准测试中实现70%的令牌减少，同时提高性能。

0 人收藏 0 人点赞