标签
一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。
本文介绍了 DMI-Lib,这是一种高速深层模型检查器,通过将监控与推理热点路径解耦,实现了大语言模型推理的高效内部可观测性。