标签
本文介绍了Qift,一种固定的无零点两位权重量化层级集,专为Hadamard旋转的大语言模型设计,通过利用旋转权重的近零中心高斯类分布,实现了改进的W2A4/KV4推理。在LLaMA-2-7B和LLaMA-3.1-8B上的实验显示,相比于标准W2量化,困惑度持续提升。
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。
本文介绍了EPIC,一个用于扩散语言模型中上下文无关文法约束解码的高效框架,在保持语法正确性的同时,将推理时间最多减少67.5%。
dMoE 提出了用于扩散大语言模型的块级专家路由,将唯一激活的专家数量从 69.5 降至 14.6,同时保留了 99.11% 的性能,并实现了 76-80% 的内存减少和 1.14-1.66 倍的加速。
CoLaGuard 是一种新型护栏模型,它将多步安全推理转移到连续潜在空间中,与显式推理基线相比,实现了 12.9 倍的加速和 22.4 倍的 Token 缩减,同时在十个安全基准上匹配宏 F1 性能。
PARCEL提出了一种新颖的视觉语言模型架构,利用池锚重采样和条件弹性查询来提高不同视觉令牌预算下的效率和性能,优于现有的matryoshka基线。
本文提出了一种方法,将预训练的Softmax注意力模型转换为线性复杂度的测试时训练(TTT)架构,在显著加速推理的同时,实现了与微调Softmax模型相当的文生图质量。该方法通过对Stable Diffusion 3.5进行线性化得到SD3.5-T^5,在1K分辨率下实现1.32倍加速。
VideoMLA 用共享的低秩潜变量和解耦的 3D-RoPE 位置键替换了视频扩散模型中每个头的 KV 缓存,在 B200 上将每个 token 的 KV 内存降低了 92.7%,吞吐量提升了 1.23 倍,同时在 VBench 基准测试中保持了质量。
Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。
作者提出了SM1,一个Mamba1的变体,d_state=1,使用两个原生PyTorch操作替代选择性扫描,与d_state=16相比内存减少16倍。闭式解消除了状态维度,实现了每个token恒定内存的高效推理。
PulseCol 提出了一种周期性刷新的列稀疏注意力方法,适用于扩散语言模型。该方法在保持模型质量的同时,实现了更高的稀疏度,并且相比 FlashAttention 获得了高达 1.95 倍的端到端加速。
Quant.npu 提出了一种面向移动 NPU 的全静态量化框架,利用可学习参数和旋转矩阵,无需运行时重新计算即可实现高效的低比特大语言模型推理,延迟最高降低 15.1%。
本文提出一种即插即用框架,通过LIF神经元的种群计算和轻量级位移缩放,实现Transformer非线性(如Softmax、SiLU、归一化)的脉冲友好近似,在无需微调的LLMs上准确率下降不到1%。
引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。
本文介绍了D-PACE,一种用于训练推测解码草稿模型的动态位置感知交叉熵损失,该损失函数自适应地加权位置以提升接受长度和推理速度,在各基准测试中实现一致的加速比,且开销极低。
OlmoEarth v1.1 是 Allen AI 推出的一系列新型卫星图像分析模型,通过减少基于 Transformer 的模型中的令牌序列长度,在保持性能的同时将计算成本降低高达 3 倍。
ProxyKV是一种跨模型代理剪枝框架,将重要性评分卸载到轻量级小模型上,以更低的预填充开销实现高精度KV缓存剪枝,在Llama-3.1、Qwen-2.5和Qwen-3系列上匹配KVZip的准确率。
RTPurbo 仅需数百步训练即可将全注意力大语言模型转化为稀疏模型,实现接近无损的准确率,并在预填充阶段最高提速 9.36 倍,解码阶段最高提速 2.01 倍。
论文介绍了TTE-Flash,一种用潜在思考令牌替换显式思维链推理的方法,以恒定推理成本生成推理感知的多模态表示,在MMEB-v2基准测试上优于显式CoT基线。
TIDE 是一种用于扩散大型语言模型的无损推理系统,它利用专家激活的时间稳定性来减少 I/O 开销和计算,在单 GPU-CPU 系统上实现高达 1.4-1.5 倍的吞吐量提升。