prefilling

#prefilling

Prefilling-dLLM：扩散语言模型中长上下文推理的预测性预填充

arXiv cs.CL ↗ · 昨天缓存

本文提出Prefilling-dLLM，一种无需训练的框架，它将前缀分割成块并缓存KV表示，在扩散语言模型的长上下文推理中实现了最先进的质量和高达28倍的加速。

0 人收藏 0 人点赞