async-batching

标签

Cards List
#async-batching

在连续批处理中实现异步性

Hugging Face Blog · 昨天 缓存

本文解释了如何为LLM推理实现异步连续批处理,将CPU批处理准备与GPU计算重叠,以最大化利用率并减少空闲时间。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈