标签
本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。
Forge-UGC 是一个四阶段通用图编译器,可在 NPU 上加速 Transformer 部署,相比 OpenVINO/ONNX Runtime,编译时间缩短 6.9–9.2 倍,推理延迟降低 18–36%,能耗减少 30–41%。