real-time-inference

#real-time-inference

介绍 Cosmos 3 Edge

Hugging Face Blog ↗ · 4天前缓存

NVIDIA 发布了 Cosmos 3 Edge，一个40亿参数的开源世界模型，专为边缘设备设计，帮助机器人和视觉AI代理理解周围环境、实时推理并生成动作。它在同类模型中实现了领先的吞吐量和准确度。

0 人收藏 0 人点赞

#real-time-inference

Reddit r/MachineLearning ↗ · 2026-06-15

PrintGuard 2.0 是对基于 ShuffleNetV2 骨干网络和原型网络的少样本 FDM 故障检测器的重大重写，现在通过平台抽象层实现了单一 Python 引擎，可在 CPython 和浏览器中的 Pyodide 上无需修改运行，支持每台打印机的灵敏度调整和公平推理调度。

0 人收藏 0 人点赞

#real-time-inference

arXiv cs.LG ↗ · 2026-06-11 缓存

本文提出了一种新颖框架，利用大语言模型从科学文献中提取解析物理先验知识，并将其蒸馏到一个轻量级神经网络中，即使在数据有限的情况下，也能实现对制造过程-属性的高精度实时预测。

0 人收藏 0 人点赞

#real-time-inference

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法，通过将扩散压缩为每个模态单步推理，实现了实时推理，速度提升23倍。

0 人收藏 0 人点赞

#real-time-inference

X AI KOLs Following ↗ · 2026-05-29 缓存

Kog 宣布在标准数据中心 GPU 上实现每请求每秒 3000+ 输出令牌的实时大语言模型推理，将此前仅限于定制芯片的高速推理引入生产硬件。

0 人收藏 0 人点赞

#real-time-inference

arXiv cs.LG ↗ · 2026-05-19 缓存

本文对Apple M3 Ultra上的实时扩散模型推理进行了系统优化研究，通过CoreML转换和蒸馏模型在512x512分辨率下达到了22.7 FPS，揭示了针对CUDA优化的技术无法直接迁移到Apple统一内存架构。

0 人收藏 0 人点赞