标签
LACE 引入了一种格子注意力机制,使LLM中的并发推理路径能够在推理过程中共享中间结果并相互纠正错误,相比标准的独立并行采样,推理准确度提高了7个多百分点。
本文介绍了STOP(用于剪枝的超令牌),一种轻量级方法,通过在并行解码中附加可学习令牌并读取KV缓存状态,学会早期剪枝不优的推理路径,在AIME和GPQA基准测试中实现70%的令牌减少,同时提高性能。