multi-tenant-serving

标签

#multi-tenant-serving

@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是，我写了一个两部分的系列文章，并进行了…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

作者使用vLLM在一张GPU上对服务1000个LoRA适配器进行了基准测试，发现活跃适配器数量和流量模式才是真正的瓶颈，并提供了调优max_loras的建议。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈