PEML:面向优化连续提示的参数高效多任务学习

arXiv cs.CL 论文

摘要

PEML提出了一种参数高效的多任务学习方法,通过低秩自适应共同优化连续提示和模型权重。在多个基准测试上,平均准确率提升高达6.67%。

arXiv:2605.14055v1 公告类型:新 摘要:参数高效微调(PEFT)被广泛用于适应各种任务的大语言模型(LLM)。最近,对单个LLM进行多任务微调的需求日益增长,因为任务间共享的共同特征使得整体微调所需的数据更少。更重要的是,LLM资源消耗大,部署单个模型处理多个任务有利于资源整合,相比为每个任务部署单独的大模型,消耗的资源显著减少。现有的PEFT方法如LoRA和Prefix Tuning旨在将LLM适应到特定任务。LoRA及其变体专注于使模型本身对齐任务,忽视了提示调优在多任务学习中的重要性,而Prefix Tuning仅采用简单架构优化提示,限制了多任务的适应能力。为了实现高效的多任务学习微调,同时优化提示和模型适应至关重要。在这项工作中,我们提出了一种参数高效的多任务学习(PEML),它采用神经架构工程方法来优化连续提示,同时对模型权重进行低秩自适应。我们通过创建一个自动化框架来优化连续提示和调整模型权重,从而实现了PEML原型。我们将PEML与最先进的多任务学习方法MTL-LoRA、MultiLoRa、C-Poly和MoE在GLUE、SuperGLUE、大规模多任务语言理解和常识推理基准上进行了评估。评估结果显示,平均准确率提升高达6.67%,个别任务峰值增益达到10.75%。
查看原文
查看缓存全文

缓存时间: 2026/05/15 06:18

# PEML:基于优化连续提示的参数高效多任务学习
来源:https://arxiv.org/html/2605.14055

Anjir Ahmed Chowdhury  
计算机科学系  
休斯顿大学  
aachowd4@cougarnet\.uh\.edu  
使用脚注提供关于作者(网页、备用地址)的进一步信息——*不*用于致谢资助机构。

Xu Dong  
计算机科学系  
休斯顿大学  
xdong24@cougarnet\.uh\.edu

Feng Yan  
计算机科学系  
休斯顿大学  
fyan5@central\.uh\.edu

###### 摘要

参数高效微调(PEFT)广泛应用于将大型语言模型(LLMs)适配到各种任务。近年来,由于任务之间共享的共同特征,对单个LLM进行多任务微调的需求日益增长,因为这样可以总体上减少微调所需的数据量。更重要的是,LLMs资源消耗巨大,部署单个模型处理多个任务有利于资源整合,与为每个任务分别部署独立的大型模型相比,能显著减少资源消耗。现有的PEFT方法(如LoRA和Prefix Tuning)旨在将LLMs适配到特定任务。LoRA及其变体侧重于使模型本身与任务对齐,忽视了提示调优在多任务学习中的重要性;而Prefix Tuning仅采用简单的架构来优化提示,这限制了其多任务适配能力。为了实现高效的多任务学习微调,同时优化提示和模型适配至关重要。在这项工作中,我们提出了一种参数高效的多任务学习(PEML)方法,该方法采用神经架构工程技术来优化连续提示,同时对模型权重进行低秩适配。我们通过创建一个自动化框架来优化连续提示并适配模型权重,从而实现了PEML的原型。我们在GLUE、SuperGLUE、大规模多任务语言理解和常识推理基准上,将PEML与最先进的多任务学习方法MTL-LoRA、MultiLoRa、C-Poly和MoE进行了评估。评估结果显示,平均准确率提升高达6.67%,单个任务的峰值增益高达10.75%。

## 1 引言

大型语言模型(LLMs)在各种自然语言处理任务中取得了显著进展,例如机器翻译(Lewis et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib75))、文本生成(Chung et al., 2022 (https://arxiv.org/html/2605.14055#bib.bib90))和代码分析(Wang et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib76); Qin et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib77))。随着LLMs规模的不断增长,传统的任务特定微调(FT)在计算上变得越来越昂贵。它需要调整模型的所有参数,这使得扩展变得困难(Devlin et al., 2018 (https://arxiv.org/html/2605.14055#bib.bib78); Howard and Ruder, 2018 (https://arxiv.org/html/2605.14055#bib.bib79); Raffel et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib36)),从而催生了参数高效微调(PEFT)方法,这些方法只需为每个任务学习一小部分额外的参数(Houlsby et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib50); Lester et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib53))。这些方法(Pfeiffer et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib81); Hu et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib37))已被广泛采用,因为它们提供了与完全微调相当的性能,同时显著降低了计算开销(Houlsby et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib50); Lester et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib53); Ding et al., 2023 (https://arxiv.org/html/2605.14055#bib.bib80))。

见图注

图1:PEML概述。隐藏状态通过 \(W_Q\)、\(W_K\) 和 \(W_V\) 投影为查询、键和值,其中LoRA应用于键和值投影。可学习的前缀向量 \(P_K\) 和 \(P_V\) 被添加到键和值序列的前面,从而在多头的注意力中实现任务特定的条件化。

LoRA (Hu et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib37)) 和 Prefix Tuning (Li and Liang, 2021 (https://arxiv.org/html/2605.14055#bib.bib56)) 是将模型适配到单一任务的突出PEFT方法。LoRA通过在训练期间将可训练的低秩矩阵引入模型权重的子集来提高效率,从而在参数空间中学习方向性更新。Prefix Tuning通过为每个transformer层之前的输入嵌入生成任务特定的连续向量 (Liu et al., 2021a (https://arxiv.org/html/2605.14055#bib.bib82); Li and Liang, 2021 (https://arxiv.org/html/2605.14055#bib.bib56)) 来提高适应性,从而引导模型的生成过程,而无需修改原始模型参数。这种学习到的前缀向量和低秩矩阵使得能够以最少的额外训练高效地适应新的和相关任务 (Lester et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib53); Liu et al., 2022 (https://arxiv.org/html/2605.14055#bib.bib83), 2021b (https://arxiv.org/html/2605.14055#bib.bib84))。

然而,LoRA和Prefix Tuning在多任务训练中面临挑战。首先,部署许多任务特定的适配器(例如,前缀向量或LoRA矩阵)会增加内存使用并使资源管理复杂化。适配器之间的频繁切换由于需要加载适配器和重新配置模型而带来计算成本。因此,这对于推理服务部署来说是低效且昂贵的。此外,单个任务训练阻止了跨任务的知识共享,错过了利用一个任务的见解来改进其他任务的机会 (Lopes et al., 2023 (https://arxiv.org/html/2605.14055#bib.bib86); Zamir et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib87))。这种孤立的任务训练限制了来自任务间知识共享的潜在性能提升。

最近,有努力将PEFT方法适应于多任务学习。MPT (Wang et al., 2023d (https://arxiv.org/html/2605.14055#bib.bib74)) 学习一个从多个任务特定提示中提炼出来的共享可迁移提示,并应用乘法低秩适配进行下游任务特化。然而,它需要为每个任务预训练单独的教师提示。MultiLoRA (Wang et al., 2023c (https://arxiv.org/html/2605.14055#bib.bib88)) 通过水平扩展模块将LoRA扩展,将其分成具有单独缩放因子的并行子模块。然而,这种方法由于为多个并行模块缓存激活而增加了VRAM使用。C-Poly (Wang et al., 2023a (https://arxiv.org/html/2605.14055#bib.bib30)) 采用基于技能的框架,使用学习的技能矩阵合并共享和任务特定的低秩参数,但其固定架构限制了泛化能力。MTL-LoRA (Yang et al., 2025 (https://arxiv.org/html/2605.14055#bib.bib19)) 引入了任务自适应参数,减少了共享低维空间中的干扰。然而,它在推理期间需要任务特定的路由,这使得推理部署和资源管理复杂化。

尽管有这些进展,大多数方法都侧重于扩展LoRA,但忽略了多任务环境中提示对齐的关键方面 (Shen et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib91); Xin et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib92))。对齐的提示可以显著提高模型在多任务训练期间的泛化能力 (Xu et al., 2022 (https://arxiv.org/html/2605.14055#bib.bib64))。受此观察的启发,我们探索将提示对齐集成到PEFT方法中,以增强多任务性能。为此,我们提出了PrefixNAS,它通过神经架构搜索(NAS)生成和优化一个统一的连续提示架构,以更好地对齐模型在多任务学习中的行为。PrefixNAS捕获任务相关的特征和关系,使得提示编码器能够有效地利用共享知识,同时保留任务特定的区别(∼参见附录7.7.3 (https://arxiv.org/html/2605.14055#S7.SS7.SSS3))。此外,PrefixNAS自动调整前缀架构及其超参数,消除了在适应新任务时进行手动调整的需要。我们进一步开发了一个参数高效的多任务学习框架(PEML),将PrefixNAS启用的提示优化集成到LoRA中进行模型对齐。图1 (https://arxiv.org/html/2605.14055#S1.F1) 显示了PEML的结构。LoRA矩阵应用于所有投影层,而前缀向量仅并行添加到每个注意力头的键和值投影中。这种组合使得模型能够适应新任务,其中LoRA处理模型适配,前缀向量处理输入对齐。这种集成设计还有利于高效的推理部署,因为只需要部署一个适配器,并且不需要适配器切换。我们将多任务学习公式化为通过LoRA和PrefixNAS的联合优化问题,并对PEML进行理论分析。我们通过将PEML与最先进的多任务学习方法(如MTL-LoRA、MultiLoRa、C-Poly和MoE (Yang et al., 2025 (https://arxiv.org/html/2605.14055#bib.bib19); Shazeer et al., 2017 (https://arxiv.org/html/2605.14055#bib.bib65); Wang et al., 2023c (https://arxiv.org/html/2605.14055#bib.bib88), a (https://arxiv.org/html/2605.14055#bib.bib30)))在GLUE (Wang et al., 2018 (https://arxiv.org/html/2605.14055#bib.bib34))、SuperGLUE (Wang et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib16))、大规模多任务语言理解 (Hendrycks et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib17)) 和常识推理基准 (Bisk et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib23); Sakaguchi et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib25); Mihaylov et al., 2018 (https://arxiv.org/html/2605.14055#bib.bib26); Zellers et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib27); Clark et al., 2018 (https://arxiv.org/html/2605.14055#bib.bib28)) 上进行评估。评估结果表明,平均准确率提升高达6.67%,单个任务的峰值增益高达10.75%。

## 2 相关工作

参数高效微调的方法大致可以分为三类:基于适配器的方法、基于提示的方法(例如Prefix Tuning)和低秩适配方法,最近的发展主要集中在前缀调优(Prefix Tuning)和LoRA上。基于适配器的方法 (Houlsby et al., 2019 (https://arxiv.org/html/2605.14055#bib.bib50); He et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib51); Mahabadi et al., 2021a (https://arxiv.org/html/2605.14055#bib.bib52)) 将小型可训练模块插入预训练模型,同时保持模型的其余部分冻结,以最少的添加参数捕获任务特定信息。它引入了额外层,导致参数冗余,而LoRA侧重于低秩更新而不引入额外层。

Prefix Tuning (Li and Liang, 2021 (https://arxiv.org/html/2605.14055#bib.bib56)) 是基于提示的微调的一种特殊形式,专注于将可学习的连续向量(称为“前缀”)附加到输入前面。它涉及优化连续向量,使模型向特定的下游任务偏移。Prefix Tuning在微调期间只更新前缀,保持基础模型参数冻结。这使得它在内存效率和可扩展性方面显著优于其他方法,特别是对于大规模模型。然而,前缀调优对初始化仍然敏感,这可能限制其在多任务环境中的适应性。

LoRA (Hu et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib37)) 通过应用低秩分解来模拟冻结模型中的权重更新,从而减少了可训练参数的数量,实现了高效微调而不增加推理成本。已经提出了几种变体来进一步提高其效率和适用性。AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2605.14055#bib.bib57)) 利用奇异值分解(SVD)来剪枝不太重要的分量。rsLoRA (Kalajdzievski, 2023 (https://arxiv.org/html/2605.14055#bib.bib58)) 引入缩放因子来稳定秩。DoRA (Liu et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib59)) 在训练期间实现LoRA参数的动态优化,以提高跨学习任务的适应性。在Stable Diffusion的背景下,Yeh等人 (Yeh et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib60)) 提出了一个统一的LoRA框架,将不同的LoRA方法组合应用于各种任务。VeRA (Kopiczko et al., 2024 (https://arxiv.org/html/2605.14055#bib.bib61)) 引入了缩放向量,用于调整跨层共享的成对冻结随机矩阵,进一步优化了参数效率。

多任务学习(MTL)通过跨任务共享参数,训练模型同时解决多个相关任务 (Zhang and Yang, 2017 (https://arxiv.org/html/2605.14055#bib.bib62); Ruder, 2017 (https://arxiv.org/html/2605.14055#bib.bib63))。它通常涉及在多个任务上进行微调,然后将知识迁移到新任务 (Vu et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib66); Raffel et al., 2020 (https://arxiv.org/html/2605.14055#bib.bib36); Aghajanyan et al., 2021 (https://arxiv.org/html/2605.14055#bib.bib67))。在基础PEFT技术的基础上,最近的创新提出了针对MTL的适应方法,旨在最小化任务间干扰,同时保持参数效率。一种方法,MPT (Wang et al., 2023d (https://arxiv.org/html/2605.14055#bib.bib74)),学习一个从多个任务特定提示中提炼出来的共享可迁移提示。然而,其主要缺点是需要为每个源任务预训练单独的教师提示,然后将知识提炼到共享提示中,这引入了显著的计算开销。UniPELT (Mao et al., 2022 (https://arxiv.org/html/2605.14055#bib.bib3)) 将Prefix-Tuning、LoRA和适配器集成在一个框架内,并使用门控机制在这些模块之间进行选择。然而,它主要设计用于单任务,并且在低数据设置下表现良好,但在全数据训练下其增益会减少。MTL-LoRA (Yang et al., 2025 (https://arxiv.org/html/2605.14055#bib.bib19)) 通过引入任务自适应参数扩展了原始LoRA框架,这些参数保留了任务特定信息并减少了共享低维空间中的干扰,从而增强了多任务适应。与将适配器合并到基础模型中的标准LoRA不同,MTL-LoRA在推理期间需要任务特定的路由,导致额外的延迟。MultiLoRA (Wang et al., 2023c (https://arxiv.org/html/2605.14055#bib.bib88)) 通过水平扩展LoRA模块并使其初始化多样化,解决了LoRA依赖顶部奇异向量的局限性,从而在多样化的任务中实现更平衡和更有效的适应。然而,由于需要为多个并行LoRA模块缓存激活,它在训练期间引入VRAM使用的线性增加。Customized Polytropon(C-Poly) (Wang et al., 2023a (https://arxiv.org/html/2605.14055#bib.bib30)) 是一个模块化的、基于技能的框架,通过将共享

相似文章

自监督提示优化

Papers with Code Trending

本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。

通过参数化记忆扩展自进化智能体

arXiv cs.AI

来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。

跨异构任务的自演化LLM记忆抽取

Hugging Face Daily Papers

研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。