decode-phase

标签

Cards List
#decode-phase

@pallavishekhar_: LLM中的连续批处理 阅读:https://outcomeschool.com/blog/continuous-batching-in-llms…

X AI KOLs Timeline · 7小时前 缓存

一篇介绍连续批处理的博客文章,该技术通过动态地将新请求添加到已完成请求的批次中,持续保持GPU忙碌并减少空闲时间,从而提高LLM服务吞吐量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈