标签
DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型,通过迭代去噪生成文本,相比自回归模型延迟更低但吞吐量受限,并展示自修正和动态计算等独特优势。
本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。