real-time-inference

标签

Cards List
#real-time-inference

Flash-WAM: 面向世界行动模型的模态感知蒸馏

Hugging Face Daily Papers · 5天前 缓存

Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。

0 人收藏 0 人点赞
#real-time-inference

@HotAisle: 太棒了。我想知道他们用的是谁的 MI300x... ;-)

X AI KOLs Following · 2026-05-29 缓存

Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理,将此前仅限于定制芯片的高速推理引入生产硬件。

0 人收藏 0 人点赞
#real-time-inference

Apple M3 Ultra上实时扩散模型推理的系统优化

arXiv cs.LG · 2026-05-19 缓存

本文对Apple M3 Ultra上的实时扩散模型推理进行了系统优化研究,通过CoreML转换和蒸馏模型在512x512分辨率下达到了22.7 FPS,揭示了针对CUDA优化的技术无法直接迁移到Apple统一内存架构。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈