bidirectional-attention

#bidirectional-attention

[Talk] Text Diffusion — Google DeepMind's Brendan O’Donoghue

Reddit r/LocalLLaMA ↗ · 5小时前缓存

DeepMind研究员Brendan O'Donoghue深入介绍文本扩散模型，通过迭代去噪生成文本，相比自回归模型延迟更低但吞吐量受限，并展示自修正和动态计算等独特优势。

0 人收藏 0 人点赞

#bidirectional-attention

arXiv cs.LG ↗ · 3天前缓存

本文提出BiCache，一种面向扩散语言模型共享前缀的新型KV缓存技术，通过动态重用浅层中缓存的键和值来避免精度崩溃，并实现36.3%–98.3%的吞吐量提升。

0 人收藏 0 人点赞