acceleration

#acceleration

CATS：面向内存受限 LLM 推理加速的级联自适应树猜测

arXiv cs.LG ↗ · 16小时前缓存

本文介绍了 CATS，这是一种级联自适应树猜测框架，旨在通过优化内存使用同时保持高 Token 接受率，加速内存受限边缘设备上的 LLM 推理。

0 人收藏 0 人点赞

#acceleration

arXiv cs.CL ↗ · 昨天缓存

本文介绍了 PARD-2，这是一种双模态投机解码框架，利用目标对齐的并行草稿模型加速大语言模型（LLM）推理，在 Llama 3.1-8B 上实现了最高 6.94 倍的无损加速。

0 人收藏 0 人点赞

#acceleration

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 DARE，这是一种通过复用缓存的键值（KV）和输出激活来减少计算冗余，从而在几乎不损失质量的情况下提高扩散大语言模型推理效率的方法。

0 人收藏 0 人点赞

#acceleration

arXiv cs.CL ↗ · 2天前缓存

本文介绍了 SpecBlock，这是一种块迭代式投机解码方法，通过将路径依赖与高效的草拟相结合来加速大语言模型的推理。与 EAGLE-3 等现有方法相比，它在保持更低草拟成本的同时展示了更高的加速比。

0 人收藏 0 人点赞

#acceleration

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了归一化轨迹模型（NTM），这是一种基于扩散生成的新颖方法，它将反向步骤建模为具有精确似然训练的有条件归一化流。NTM 仅需四个步骤即可实现高质量的文本到图像生成，同时保留了似然框架，在标准基准测试中优于基线方法。

0 人收藏 0 人点赞