systems

标签

Cards List
#systems

@ickma2311: 高效AI讲座13:LLM部署技术 该讲座帮助我很好地理解了AWQ、vLLM和FlashAttention…

X AI KOLs Timeline · 17小时前 缓存

一场关于LLM部署技术的讲座,涵盖AWQ、vLLM、FlashAttention、量化和激活平滑,以实现高效服务。

0 人收藏 0 人点赞
#systems

为大语言模型推理提供高性能且灵活的模型内部可观测性

arXiv cs.LG · 昨天 缓存

本文介绍了 DMI-Lib,这是一种高速深层模型检查器,通过将监控与推理热点路径解耦,实现了大语言模型推理的高效内部可观测性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈