标签
一篇新帖子强调了扩散LLM的一个缺点:双向注意力机制导致键值跨步骤漂移,破坏了KV缓存。不过,生成质量对轻微的KV漂移具有鲁棒性,研究重点已放在最大化陈旧KV重用而不导致质量下降上。
ELF提出了一种基于嵌入空间和流匹配的连续扩散语言模型,在更少的采样步骤下性能优于现有的离散和连续扩散语言模型。