@TanejaPriyal: 我想理解LoRA不仅仅是“适配器比全微调更便宜”。于是,我写了一个两部分的系列文章,并进行了…
摘要
作者使用vLLM在一张GPU上对服务1000个LoRA适配器进行了基准测试,发现活跃适配器数量和流量模式才是真正的瓶颈,并提供了调优max_loras的建议。
查看缓存全文
缓存时间: 2026/05/27 03:18
我想了解LoRA不仅仅是因为“适配器比全参数微调更便宜”。
于是,我写了一个分为两部分的系列文章,并运行了一个基准测试:当你在一个GPU上服务1000个LoRA适配器时会发生什么?
我的发现:
适配器总数并非真正的瓶颈。重要的是同时活跃的适配器数量。 流量形状改变一切。在1000个适配器的情况下,均匀分布的流量获得884 tok/s;倾斜的流量获得2,167 tok/s。 vLLM的max_loras参数并非“越高越好”。设置太低会导致数秒的首token延迟;设置太高则会降低吞吐量。 多LoRA服务的关键在于管理活跃工作集,而不仅仅是存储大量适配器。
局限性:本实验使用合成适配器,因此侧重于服务机制,而非模型质量。
第一部分:LoRA的原理——适配器、秩和多租户服务:https://priyaltaneja.com/mechanics-of-lora…
第二部分:大规模多LoRA——vLLM运行范围的经验地图:https://priyaltaneja.com/multi-lora-at-scale…
代码、CSV文件、图表: https://github.com/priyaltaneja/multi-lora-serving-benchmark…
相似文章
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
ReLoRA: 知识复用适应方法,用于快速部署不断演进的LLM服务
ReLoRA是一个知识复用的适应框架,能够高效恢复面向不断演进的LLM服务的、可投入使用的LoRA适配器。通过自适应初始化和计划正则化,它可将准备时间缩短最多8.9倍,并将准确率提升最高4.6%。
超越 LoRA 与全参数微调:基于梯度引导优化器路由的大语言模型适配
本文提出了一种混合 LoRA 与全参数微调(MoLF)框架,利用梯度引导的优化器路由在 LoRA 和全参数微调之间进行自适应切换。旨在通过结合全参数微调的可塑性与 LoRA 的正则化特性,克服仅依赖静态适配方法的结构局限性。
Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型
Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。
用于电信客户服务的小型语言模型PEFT:LoRA配置及能耗分析的比较研究
本文系统性地研究了使用LoRA对Qwen2.5-3B进行参数高效微调用于电信客户支持,比较了16种LoRA配置的传统指标与能耗分析。发现定量与定性性能之间存在分歧。