autoregressive-decoding

#autoregressive-decoding

SpecLA：面向线性注意力模型的高效推测解码

arXiv cs.CL ↗ · 12小时前缓存

SpecLA 提出了一种专为有状态线性注意力模型设计的推测解码运行时，在搭载 GDN-1.3B 目标模型的 NVIDIA H100 上，相比自回归解码实现了最高 1.70 倍的端到端加速。

0 人收藏 0 人点赞

#autoregressive-decoding

Hugging Face Daily Papers ↗ · 2026-07-06 缓存

KVpop提出了一种由未来注意力目标监督的学习型KV缓存驱逐策略，在Qwen3模型上实现了高压缩率（例如，75%压缩率下保持98%性能），同时保持质量。

0 人收藏 0 人点赞

#autoregressive-decoding

Hugging Face Daily Papers ↗ · 2026-07-03 缓存

本文介绍了PadCaptioner，一个3B参数的全模态密集视频字幕模型，采用并行自回归解码实现高效率和高品质，性能超越7B参数模型。通过利用事件间的弱局部依赖关系，潜在规划机制实现了无损并行生成。

0 人收藏 0 人点赞

#autoregressive-decoding

arXiv cs.AI ↗ · 2026-06-11 缓存

本文分析了大型语言模型中的幻觉，将其视为三个架构决策的结构性后果：自注意力的共现学习、最大似然估计训练目标以及自回归解码的左到右承诺。它将每种机制映射到特定的幻觉类型，并论证了数据集病态会放大但不会导致这些脆弱性。

0 人收藏 0 人点赞

#autoregressive-decoding

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

介绍了Future-L1，一种交错潜在视觉推理框架，通过在潜在空间中保持视觉语义来改进视频事件预测。在FutureBench和TwiFF-Bench基准上取得了最先进的结果。

0 人收藏 0 人点赞

#autoregressive-decoding

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

KVarN是一个免校准的KV缓存量化器，它使用哈达玛旋转和双缩放方差归一化来减少大型语言模型自回归解码过程中的错误累积，在推理基准上实现了最先进的2位精度。

0 人收藏 0 人点赞

#autoregressive-decoding

X AI KOLs Following ↗ · 2026-05-19 缓存

NVIDIA发布了Nemotron-Labs-Diffusion，这是一个扩散语言模型系列，可以并行生成多个token，从而实现更快的推理和更好的GPU利用率，模型规模从3B到14B，包括视觉语言变体。

0 人收藏 0 人点赞

#autoregressive-decoding

arXiv cs.CL ↗ · 2026-05-13 缓存

本文介绍了 BitLM，一种利用位级连续扩散并行生成多个 Token 的语言模型，旨在克服传统自回归生成的顺序瓶颈，同时保留因果结构。

0 人收藏 0 人点赞