标签
Lite3R 是一个模型无关框架,通过稀疏线性注意力和 FP8 感知量化,提升了基于 Transformer 的 3D 重建效率。在保持 VGGT 和 DA3-Large 等主干网络几何精度的同时,它将延迟和内存占用降低了高达 2.4 倍。
本文介绍了 Louver,这是一种用于 KV 缓存检索的新型索引结构。它将稀疏注意力重新表述为范围搜索问题,保证零假阴性,并且比现有方法更高效。
NVIDIA采用了后期交互(一种稀疏注意力形式),用于基于注意力的编码器-解码器,以直接从内部表示中进行检索。
本文介绍了 MISA,这是一种将混合专家(MoE)方法应用于稀疏注意力机制中索引器头部的技术,在保持性能的同时显著降低了长上下文大语言模型推理的计算成本。
本文介绍了上下文稀疏注意力(ISA),这是一种通过裁剪冗余上下文和使用动态查询分组来显著降低视频编辑计算成本的框架。作者通过 LIVEditor 证明了该方法的有效性,在多个视频编辑基准测试中实现了近乎无损的加速和最新的技术结果。