@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是，我写了一个两部分的系列文章，并进行了…

X AI KOLs Timeline 2026/05/26 18:52 论文

lora fine-tuning adapters vllm multi-tenant-serving benchmark serving

摘要

作者使用vLLM在一张GPU上对服务1000个LoRA适配器进行了基准测试，发现活跃适配器数量和流量模式才是真正的瓶颈，并提供了调优max_loras的建议。

我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是，我写了一个两部分的系列文章，并进行了一项基准测试：当在一张GPU上服务1000个LoRA适配器时会发生什么？我的收获： > 适配器总数并不是真正的瓶颈。真正重要的是同时活跃的适配器数量。 > 流量模式会改变一切。对于1000个适配器，均匀分布的流量达到884 tok/s；偏斜的流量达到2167 tok/s。 > vLLM的max_loras并不是“越高越好”。设置过低会导致首令牌延迟超过数秒；设置过高则会降低吞吐量。 > 多LoRA服务的关键在于管理活跃工作集，而不仅仅是存储大量适配器。局限性：本实验使用合成适配器，因此重点关注服务机制，而非模型质量。第一部分：LoRA的机制：适配器、秩与多租户服务：https://priyaltaneja.com/mechanics-of-lora… 第二部分：多LoRA规模化：vLLM运行范围的经验图谱：https://priyaltaneja.com/multi-lora-at-scale… 代码、CSV文件、图表： https://github.com/priyaltaneja/multi-lora-serving-benchmark…

查看原文

查看缓存全文

缓存时间: 2026/05/27 03:18

我想了解LoRA不仅仅是因为“适配器比全参数微调更便宜”。

于是，我写了一个分为两部分的系列文章，并运行了一个基准测试：当你在一个GPU上服务1000个LoRA适配器时会发生什么？

我的发现：

适配器总数并非真正的瓶颈。重要的是同时活跃的适配器数量。流量形状改变一切。在1000个适配器的情况下，均匀分布的流量获得884 tok/s；倾斜的流量获得2,167 tok/s。 vLLM的max_loras参数并非“越高越好”。设置太低会导致数秒的首token延迟；设置太高则会降低吞吐量。多LoRA服务的关键在于管理活跃工作集，而不仅仅是存储大量适配器。

局限性：本实验使用合成适配器，因此侧重于服务机制，而非模型质量。

第一部分：LoRA的原理——适配器、秩和多租户服务：https://priyaltaneja.com/mechanics-of-lora…

第二部分：大规模多LoRA——vLLM运行范围的经验地图：https://priyaltaneja.com/multi-lora-at-scale…

代码、CSV文件、图表： https://github.com/priyaltaneja/multi-lora-serving-benchmark…

@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是，我写了一个两部分的系列文章，并进行了…

相似文章

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

ReLoRA: 知识复用适应方法，用于快速部署不断演进的LLM服务

超越 LoRA 与全参数微调：基于梯度引导优化器路由的大语言模型适配

Code2LoRA：超网络生成的适配器，用于软件演进中的代码语言模型

用于电信客户服务的小型语言模型PEFT：LoRA配置及能耗分析的比较研究

提交意见反馈