efficient-inference

#efficient-inference

NVIDIA AI 发布 Star Elastic：一个检查点包含 30B、23B 和 12B 推理模型，支持零样本切片

Reddit r/LocalLLaMA ↗ · 7小时前

NVIDIA 发布 Star Elastic，这是一种新型 AI 架构，允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制，在保持准确性的同时显著降低了延迟和计算成本。

0 人收藏 0 人点赞

#efficient-inference

arXiv cs.LG ↗ · 2天前缓存

本文提出了Token-Selective Attention (TSA)，一种可微的token路由机制，它学习在每个token上跳过Transformer层中不必要的计算，从而在语言建模任务中将token层操作减少14-23%，且质量损失极小。

0 人收藏 0 人点赞

#efficient-inference

Hugging Face Blog ↗ · 2026-04-24 缓存

DeepSeek发布V4，这是一款MoE模型，拥有100万Token上下文窗口，通过混合注意力机制和降低KV缓存需求，针对智能体任务进行了优化。

0 人收藏 0 人点赞

#efficient-inference

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

GlobalSplat 引入了一种高效的前馈框架，用于三维高斯散射，通过全局场景标记实现紧凑且一致的场景重建，将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略，防止表示膨胀，同时以显著更少的高斯原语（16K）达到有竞争力的新视角合成性能，与密集基线相比更为高效。

0 人收藏 0 人点赞

#efficient-inference

Hugging Face Daily Papers ↗ · 2026-04-16 缓存

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架，通过在共享的文本概率空间内统一多模态知识迁移，高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时，在10个多模态基准测试上实现了平均3.6个百分点的提升。

0 人收藏 0 人点赞