heterogeneous-hardware

标签

Cards List
#heterogeneous-hardware

迈向多模型LLM调度器:关于卸载和抢占的实证洞见

arXiv cs.AI · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞
#heterogeneous-hardware

Forge-UGC:面向通用图编译器的 FX 优化与寄存器图引擎

Hugging Face Daily Papers · 2026-04-14 缓存

Forge-UGC 是一个四阶段通用图编译器,可在 NPU 上加速 Transformer 部署,相比 OpenVINO/ONNX Runtime,编译时间缩短 6.9–9.2 倍,推理延迟降低 18–36%,能耗减少 30–41%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈