efficient-inference

标签

Cards List
#efficient-inference

NVIDIA AI 发布 Star Elastic:一个检查点包含 30B、23B 和 12B 推理模型,支持零样本切片

Reddit r/LocalLLaMA · 7小时前

NVIDIA 发布 Star Elastic,这是一种新型 AI 架构,允许单个检查点通过零样本切片作为 30B、23B 和 12B 模型运行。这种方法实现了推理任务的动态预算控制,在保持准确性的同时显著降低了延迟和计算成本。

0 人收藏 0 人点赞
#efficient-inference

通过学习的Token路由在Transformer中实现自适应计算深度

arXiv cs.LG · 2天前 缓存

本文提出了Token-Selective Attention (TSA),一种可微的token路由机制,它学习在每个token上跳过Transformer层中不必要的计算,从而在语言建模任务中将token层操作减少14-23%,且质量损失极小。

0 人收藏 0 人点赞
#efficient-inference

DeepSeek-V4:百万Token上下文,真正可供智能体使用

Hugging Face Blog · 2026-04-24 缓存

DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。

0 人收藏 0 人点赞
#efficient-inference

GlobalSplat: 通过全局场景标记实现高效的前馈式三维高斯散射

Hugging Face Daily Papers · 2026-04-16 缓存

GlobalSplat 引入了一种高效的前馈框架,用于三维高斯散射,通过全局场景标记实现紧凑且一致的场景重建,将计算开销和推理时间降低至78毫秒以下。该方法采用从粗到细的训练策略,防止表示膨胀,同时以显著更少的高斯原语(16K)达到有竞争力的新视角合成性能,与密集基线相比更为高效。

0 人收藏 0 人点赞
#efficient-inference

Switch-KD:面向视觉语言模型的视觉开关知识蒸馏

Hugging Face Daily Papers · 2026-04-16 缓存

Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈