systems

标签

#systems

@ickma2311: 高效AI讲座13：LLM部署技术该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline ↗ · 17小时前缓存

一场关于LLM部署技术的讲座，涵盖AWQ、vLLM、FlashAttention、量化和激活平滑，以实现高效服务。

0 人收藏 0 人点赞

#systems

为大语言模型推理提供高性能且灵活的模型内部可观测性

arXiv cs.LG ↗ · 昨天缓存

本文介绍了 DMI-Lib，这是一种高速深层模型检查器，通过将监控与推理热点路径解耦，实现了大语言模型推理的高效内部可观测性。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈