@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是,我写了一个两部分的系列文章,并进行了…

X AI KOLs Timeline 论文

摘要

作者使用vLLM在一张GPU上对服务1000个LoRA适配器进行了基准测试,发现活跃适配器数量和流量模式才是真正的瓶颈,并提供了调优max_loras的建议。

我想理解LoRA不仅仅是“适配器比全微调更便宜”。 于是,我写了一个两部分的系列文章,并进行了一项基准测试:当在一张GPU上服务1000个LoRA适配器时会发生什么? 我的收获: > 适配器总数并不是真正的瓶颈。真正重要的是同时活跃的适配器数量。 > 流量模式会改变一切。对于1000个适配器,均匀分布的流量达到884 tok/s;偏斜的流量达到2167 tok/s。 > vLLM的max_loras并不是“越高越好”。设置过低会导致首令牌延迟超过数秒;设置过高则会降低吞吐量。 > 多LoRA服务的关键在于管理活跃工作集,而不仅仅是存储大量适配器。 局限性:本实验使用合成适配器,因此重点关注服务机制,而非模型质量。 第一部分:LoRA的机制:适配器、秩与多租户服务:https://priyaltaneja.com/mechanics-of-lora… 第二部分:多LoRA规模化:vLLM运行范围的经验图谱:https://priyaltaneja.com/multi-lora-at-scale… 代码、CSV文件、图表: https://github.com/priyaltaneja/multi-lora-serving-benchmark…
查看原文
查看缓存全文

缓存时间: 2026/05/27 03:18

我想了解LoRA不仅仅是因为“适配器比全参数微调更便宜”。

于是,我写了一个分为两部分的系列文章,并运行了一个基准测试:当你在一个GPU上服务1000个LoRA适配器时会发生什么?

我的发现:

适配器总数并非真正的瓶颈。重要的是同时活跃的适配器数量。 流量形状改变一切。在1000个适配器的情况下,均匀分布的流量获得884 tok/s;倾斜的流量获得2,167 tok/s。 vLLM的max_loras参数并非“越高越好”。设置太低会导致数秒的首token延迟;设置太高则会降低吞吐量。 多LoRA服务的关键在于管理活跃工作集,而不仅仅是存储大量适配器。

局限性:本实验使用合成适配器,因此侧重于服务机制,而非模型质量。

第一部分:LoRA的原理——适配器、秩和多租户服务:https://priyaltaneja.com/mechanics-of-lora…

第二部分:大规模多LoRA——vLLM运行范围的经验地图:https://priyaltaneja.com/multi-lora-at-scale…

代码、CSV文件、图表: https://github.com/priyaltaneja/multi-lora-serving-benchmark…

相似文章

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型

Hugging Face Daily Papers

Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。