标签
WaveFilter提出了一种无需训练的小波引导KV缓存过滤框架,用于扩散大语言模型,通过精确识别关键令牌并构建稀疏缓存来增强长上下文能力,从而提升复杂长上下文任务的性能。
本文介绍了时空并行解码(TSPD)和置信度外推(CE),通过动态判断令牌何时收敛并预测logit趋势,来加速基于扩散的大语言模型的推理,减少不必要的去噪步骤,同时保持输出质量。
本文介绍了 WINO 和 WINO+,这两种方法能够在扩散大语言模型中实现可撤销的并行解码,并提炼高效的降噪轨迹,显著改善质量-速度权衡。
本文介绍了 DARE,这是一种通过复用缓存的键值(KV)和输出激活来减少计算冗余,从而在几乎不损失质量的情况下提高扩散大语言模型推理效率的方法。