Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

arXiv cs.LG 2026/05/20 04:00 论文

摘要

Hybrid-LoRA提出了一种框架，选择性地对一小部分模块进行全微调，同时对其他模块使用LoRA，在显著降低计算成本的同时实现了接近全微调的性能。实验表明，与现有参数高效基线方法相比，性能提升高达5.65%。

arXiv:2605.18822v1 公告类型：新摘要：后训练已变得至关重要，用于使大型语言模型（LLMs）适应复杂的下游行为，包括指令遵循、偏好对齐和多步推理。基于可验证奖励的强化学习（RLVR）最近成为一种特别有效的后训练范式，用于提升推理能力，其中无需评论家的算法（如GRPO和GSPO）实现了可扩展的优化。然而，使用全微调（FFT）的RLVR后训练需要大量GPU内存，且训练成本高昂。尽管参数高效微调（PEFT）方法（如低秩适应LoRA）有效降低了计算成本，但在复杂推理任务的后训练中，与全微调相比，它们通常存在明显的性能差距。本文提出Hybrid-LoRA，一种高效的混合后训练框架，该框架选择性地对一小部分不适合低秩适应的模块进行全微调，同时使用LoRA适应其余组件。我们引入了一种新颖的Hybrid-LoRA评分，用于在固定参数预算下根据候选模块对低秩适应的敏感度对其进行排序。实验表明，在10%的全微调模块预算下（剩余候选模块通过LoRA适应），Hybrid-LoRA的性能与全微调紧密匹配，持续优于四种最先进的PEFT后训练基线，与最佳基线相比提升高达5.65%，平均提升4.36%。

查看原文