标签
阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。
提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。
RTPurbo利用全注意力大语言模型的内在稀疏性,以极小的训练开销实现高效的长上下文推理,在保持近乎无损精度的同时实现显著加速。
BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由,在最小化性能损失的情况下将FLOPs减少高达85%,解码速度提升2.5倍。
本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。
GridProbe 是一种无需训练的长视频 VLM 推理范式,它通过后验探测自适应地选择相关帧,在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。
NVIDIA 发布 Star Elastic,这是一种新型 AI 架构,允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制,在保持准确性的同时显著降低了延迟和计算成本。
本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。
GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。
Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。
SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。
AirLLM 是一个开源库,能够在单个 4GB GPU 上运行大型语言模型(最高可达 405B),无需量化、蒸馏或剪枝,显著降低了本地 LLM 推理的硬件门槛。