标签
本文探究大型语言模型是否表现出与人类相同的基于使用的语言生产力约束(固化与先占),研究发现模型可以复现强制现象,但无法应用统计先占来避免过度泛化。
本文对在共享异构硬件上调度多个LLM进行了实证研究,重点关注CPU-GPU卸载和抢占的性能影响。研究发现,卸载会导致非线性的解码吞吐量下降,尤其是对于较小的模型,而抢占开销主要由模型状态重载主导,为未来多模型调度器的设计提供了指导。