multi-tenant-serving

标签

Cards List
#multi-tenant-serving

@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是,我写了一个两部分的系列文章,并进行了…

X AI KOLs Timeline · 2026-05-26 缓存

作者使用vLLM在一张GPU上对服务1000个LoRA适配器进行了基准测试,发现活跃适配器数量和流量模式才是真正的瓶颈,并提供了调优max_loras的建议。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈