efficient-inference

#efficient-inference

Qwen3.7预览版登陆Arena（1分钟阅读）

TLDR AI ↗ · 2026-05-19 缓存

阿里巴巴Qwen宣布两大重要模型发布：Qwen3-Omni，首个原生端到端全模态AI，统一处理文本、图像、音频和视频；以及Qwen3-Next-80B-A3B，一款超高效MoE模型，每个token激活30亿参数，实现了SOTA性能，推理速度比Qwen3-32B快10倍。

0 人收藏 0 人点赞

#efficient-inference

面向高效长上下文生成的Context Memorization

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

提出了attention-state memory，一种免训练方法，将预计算的注意力状态存储在轻量级记忆中，以提高长前缀推理的准确率并降低延迟，在基准测试中优于传统方法。

0 人收藏 0 人点赞

#efficient-inference

全注意力卷土重来：百步训练内将全注意力迁移至稀疏注意力

Hugging Face Daily Papers ↗ · 2026-05-16 缓存

RTPurbo利用全注意力大语言模型的内在稀疏性，以极小的训练开销实现高效的长上下文推理，在保持近乎无损精度的同时实现显著加速。

0 人收藏 0 人点赞

#efficient-inference

BEAM：用于MoE动态路由的二值专家激活掩码

arXiv cs.AI ↗ · 2026-05-15 缓存

BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由，在最小化性能损失的情况下将FLOPs减少高达85%，解码速度提升2.5倍。

0 人收藏 0 人点赞

#efficient-inference

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

arXiv cs.AI ↗ · 2026-05-14 缓存

本文提出了EGRSD和CL-EGRSD，这是在策略自蒸馏方法，通过教师熵对令牌级监督进行加权，以改善大语言模型推理准确性-长度的权衡，并在Qwen3-4B和Qwen3-8B上进行了评估。

0 人收藏 0 人点赞

#efficient-inference

GridProbe：针对长视频 VLM 自适应推理时计算的后验探测方法

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

GridProbe 是一种无需训练的长视频 VLM 推理范式，它通过后验探测自适应地选择相关帧，在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。

0 人收藏 0 人点赞

#efficient-inference

NVIDIA AI 发布 Star Elastic：一个检查点包含 30B、23B 和 12B 推理模型，支持零样本切片

Reddit r/LocalLLaMA ↗ · 2026-05-10

NVIDIA 发布 Star Elastic，这是一种新型 AI 架构，允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制，在保持准确性的同时显著降低了延迟和计算成本。

0 人收藏 0 人点赞

#efficient-inference

通过学习的Token路由在Transformer中实现自适应计算深度

arXiv cs.LG ↗ · 2026-05-08 缓存

本文提出了Token-Selective Attention (TSA)，一种可微的token路由机制，它学习在每个token上跳过Transformer层中不必要的计算，从而在语言建模任务中将token层操作减少14-23%，且质量损失极小。

0 人收藏 0 人点赞

#efficient-inference

DeepSeek-V4：百万Token上下文，真正可供智能体使用

Hugging Face Blog ↗ · 2026-04-24 缓存

DeepSeek发布V4，这是一款MoE模型，拥有100万Token上下文窗口，通过混合注意力机制和降低KV缓存需求，针对智能体任务进行了优化。

0 人收藏 0 人点赞

#efficient-inference

GlobalSplat: 通过全局场景标记实现高效的前馈式三维高斯散射

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

GlobalSplat 引入了一种高效的前馈框架，用于三维高斯散射，通过全局场景标记实现紧凑且一致的场景重建，将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略，防止表示膨胀，同时以显著更少的高斯原语（16K）达到有竞争力的新视角合成性能，与密集基线相比更为高效。

0 人收藏 0 人点赞

#efficient-inference

Switch-KD：面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架，通过在共享的文本概率空间内统一多模态知识迁移，高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时，在10个多模态基准测试上实现了平均3.6个百分点的提升。

0 人收藏 0 人点赞

#efficient-inference

SANA-Video：基于块线性扩散变压器的高效视频生成

Papers with Code Trending ↗ · 2025-09-29 缓存

SANA-Video是一个小型扩散模型，利用线性注意力和恒定内存KV缓存，高效生成高分辨率、长时长的视频，以显著更低的成本和更快的速度实现与现有模型相媲美的性能。

0 人收藏 0 人点赞

#efficient-inference

lyogavin/airllm

GitHub Trending (daily) ↗ · 2026-06-03 缓存

AirLLM 是一个开源库，能够在单个 4GB GPU 上运行大型语言模型（最高可达 405B），无需量化、蒸馏或剪枝，显著降低了本地 LLM 推理的硬件门槛。

0 人收藏 0 人点赞

efficient-inference

提交意见反馈