efficient-inference

标签

Cards List
#efficient-inference

Qwen3.7预览版登陆Arena(1分钟阅读)

TLDR AI · 2026-05-19 缓存

阿里巴巴Qwen宣布两大重要模型发布:Qwen3-Omni,首个原生端到端全模态AI,统一处理文本、图像、音频和视频;以及Qwen3-Next-80B-A3B,一款超高效MoE模型,每个token激活30亿参数,实现了SOTA性能,推理速度比Qwen3-32B快10倍。

0 人收藏 0 人点赞
#efficient-inference

面向高效长上下文生成的Context Memorization

Hugging Face Daily Papers · 2026-05-18 缓存

提出了attention-state memory,一种免训练方法,将预计算的注意力状态存储在轻量级记忆中,以提高长前缀推理的准确率并降低延迟,在基准测试中优于传统方法。

0 人收藏 0 人点赞
#efficient-inference

全注意力卷土重来:百步训练内将全注意力迁移至稀疏注意力

Hugging Face Daily Papers · 2026-05-16 缓存

RTPurbo利用全注意力大语言模型的内在稀疏性,以极小的训练开销实现高效的长上下文推理,在保持近乎无损精度的同时实现显著加速。

0 人收藏 0 人点赞
#efficient-inference

BEAM:用于MoE动态路由的二值专家激活掩码

arXiv cs.AI · 2026-05-15 缓存

BEAM通过二值专家激活掩码实现混合专家大语言模型的动态路由,在最小化性能损失的情况下将FLOPs减少高达85%,解码速度提升2.5倍。

0 人收藏 0 人点赞
#efficient-inference

在策略自蒸馏中尊重自不确定性以实现高效LLM推理

arXiv cs.AI · 2026-05-14 缓存

本文提出了EGRSD和CL-EGRSD,这是在策略自蒸馏方法,通过教师熵对令牌级监督进行加权,以改善大语言模型推理准确性-长度的权衡,并在Qwen3-4B和Qwen3-8B上进行了评估。

0 人收藏 0 人点赞
#efficient-inference

GridProbe:针对长视频 VLM 自适应推理时计算的后验探测方法

Hugging Face Daily Papers · 2026-05-11 缓存

GridProbe 是一种无需训练的长视频 VLM 推理范式,它通过后验探测自适应地选择相关帧,在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。

0 人收藏 0 人点赞
#efficient-inference

NVIDIA AI 发布 Star Elastic:一个检查点包含 30B、23B 和 12B 推理模型,支持零样本切片

Reddit r/LocalLLaMA · 2026-05-10

NVIDIA 发布 Star Elastic,这是一种新型 AI 架构,允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制,在保持准确性的同时显著降低了延迟和计算成本。

0 人收藏 0 人点赞
#efficient-inference

通过学习的Token路由在Transformer中实现自适应计算深度

arXiv cs.LG · 2026-05-08 缓存

本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。

0 人收藏 0 人点赞
#efficient-inference

DeepSeek-V4:百万Token上下文,真正可供智能体使用

Hugging Face Blog · 2026-04-24 缓存

DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。

0 人收藏 0 人点赞
#efficient-inference

GlobalSplat: 通过全局场景标记实现高效的前馈式三维高斯散射

Hugging Face Daily Papers · 2026-04-16 缓存

GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。

0 人收藏 0 人点赞
#efficient-inference

Switch-KD:面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers · 2026-04-16 缓存

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。

0 人收藏 0 人点赞
#efficient-inference

SANA-Video:基于块线性扩散变压器的高效视频生成

Papers with Code Trending · 2025-09-29 缓存

SANA-Video是一个小型扩散模型,利用线性注意力和恒定内存KV缓存,高效生成高分辨率、长时长的视频,以显著更低的成本和更快的速度实现与现有模型相媲美的性能。

0 人收藏 0 人点赞
#efficient-inference

lyogavin/airllm

GitHub Trending (daily) · 2026-06-03 缓存

AirLLM 是一个开源库,能够在单个 4GB GPU 上运行大型语言模型(最高可达 405B),无需量化、蒸馏或剪枝,显著降低了本地 LLM 推理的硬件门槛。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈