heterogeneous-hardware

#heterogeneous-hardware

迈向多模型LLM调度器：关于卸载和抢占的实证洞见

arXiv cs.AI ↗ · 2026-05-20

本文对在共享异构硬件上调度多个LLM进行了实证研究，重点关注CPU-GPU卸载和抢占的性能影响。研究发现，卸载会导致非线性的解码吞吐量下降，尤其是对于较小的模型，而抢占开销主要由模型状态重载主导，为未来多模型调度器的设计提供了指导。

0 人收藏 0 人点赞

#heterogeneous-hardware

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

Forge-UGC 是一个四阶段通用图编译器，可在 NPU 上加速 Transformer 部署，相比 OpenVINO/ONNX Runtime，编译时间缩短 6.9–9.2 倍，推理延迟降低 18–36%，能耗减少 30–41%。

0 人收藏 0 人点赞