Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG 论文

摘要

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

arXiv:2605.18822v1 公告类型:新 摘要:后训练已变得至关重要,用于使大型语言模型(LLMs)适应复杂的下游行为,包括指令遵循、偏好对齐和多步推理。基于可验证奖励的强化学习(RLVR)最近成为一种特别有效的后训练范式,用于提升推理能力,其中无需评论家的算法(如GRPO和GSPO)实现了可扩展的优化。然而,使用全微调(FFT)的RLVR后训练需要大量GPU内存,且训练成本高昂。尽管参数高效微调(PEFT)方法(如低秩适应LoRA)有效降低了计算成本,但在复杂推理任务的后训练中,与全微调相比,它们通常存在明显的性能差距。本文提出Hybrid-LoRA,一种高效的混合后训练框架,该框架选择性地对一小部分不适合低秩适应的模块进行全微调,同时使用LoRA适应其余组件。我们引入了一种新颖的Hybrid-LoRA评分,用于在固定参数预算下根据候选模块对低秩适应的敏感度对其进行排序。实验表明,在10%的全微调模块预算下(剩余候选模块通过LoRA适应),Hybrid-LoRA的性能与全微调紧密匹配,持续优于四种最先进的PEFT后训练基线,与最佳基线相比提升高达5.65%,平均提升4.36%。
查看原文

相似文章

MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning

Hugging Face Daily Papers

# Paper page - MatryoshkaLoRA: Learning Accurate Hierarchical Low-Rank Representations for LLM Fine-Tuning Source: [https://huggingface.co/papers/2605.07850](https://huggingface.co/papers/2605.07850) We propose**MatryoshkaLoRA**, a general, Matryoshka\-inspired training framework for LoRA that learns accurate hierarchical low\-rank representations by inserting a fixed, carefully crafted diagonal matrix**P**between the existing LoRA adapters to scale their sub\-ranks accordingly\. By introducing

Aletheia:基于梯度引导的层选择方法,实现跨架构的高效LoRA微调

arXiv cs.CL

Aletheia 提出了一种基于梯度引导的层选择方法,用于高效的 LoRA 微调。该方法通过轻量级梯度探针识别与任务相关的 Transformer 层,并选择性地应用适配器,在 14 个模型上实现了 15%-28% 的训练加速,同时保持了在 MMLU、GSM8K 和 HumanEval 基准测试中的下游性能。