迈向LLM的下一个前沿:私有数据训练——联邦微调的跨域基准
摘要
本文提出了一个在私有数据上对大型语言模型进行联邦微调的跨域基准,评估了LoRA、QLoRA和IA3策略在医疗和金融数据集上的表现。结果表明,联邦微调接近集中式训练的性能,并优于孤立学习,证明了在数据无法共享时通过联邦微调适配LLM的可行性。
查看缓存全文
缓存时间: 2026/05/15 06:25
# 迈向LLM的下一个前沿:基于私有数据的训练——联邦微调的跨领域基准测试 来源:https://arxiv.org/html/2605.13936 ###### 摘要 大语言模型(LLM)最近的成功主要得益于海量公开数据集。然而,LLM开发的下一前沿已超越公开数据。世界上最有价值的信息大多属于私有领域,尤其是在医疗和金融等高度监管的行业中,这些数据包括患者病历或客户通信记录。解锁这些数据可能代表一次重大飞跃,使LLM具备更深的领域专业知识和更强的现实世界实用性。然而,这些数据无法共享,因为它们分散在各机构之间,并受限于隐私、监管和组织壁垒。此外,机构数据集通常是非独立同分布(non-IID)的,在人群特征、数据模态、文档记录模式以及任务特定标签分布方面,各站点之间各不相同。本文展示了一种实际可行的方法,通过跨数据孤岛的联邦协作,解锁私有且分布式的机构数据以适配LLM。基于Sherpa.ai (https://www.sherpa.ai/) 联邦学习平台,我们的框架使各节点能够在不交换私有数据的情况下联合微调共享的LLM。我们通过医疗和金融领域的跨领域基准测试来评估该方法,使用了四个封闭式问答和分类数据集:MedQA、MedMCQA、FPB和FiQA-SA。我们在反映机构数据异质性的非IID设置下,比较了三种参数高效微调(PEFT)策略——LoRA、QLoRA和IA3,并应用于预训练骨干模型。结果表明,联邦微调的性能接近集中式训练,且优于孤立的单机构学习。从绿色AI的角度看,QLoRA和IA3在有限精度损失下提升了效率,支持联邦PEFT作为无法共享数据时适配LLM的可行方法。 参见图注图1:展示最佳联邦模型在各机构上的FiQA-SA准确率的全球地图。 ## 1 引言 大语言模型已成为众多自然语言处理任务的强大基础,包括分类、封闭式问答、指令遵循,以及医学和金融等领域的特定领域推理[24 (https://arxiv.org/html/2605.13936#bib.bib67),18 (https://arxiv.org/html/2605.13936#bib.bib66),17 (https://arxiv.org/html/2605.13936#bib.bib68)]。然而,在实践中,在专业领域取得高性能仍依赖于通过微调进行的任务特定适配,即对预训练模型在标注任务数据上进一步训练,使其更好地捕捉目标领域的术语和推理模式。例如,通用LLM可能需要额外的微调才能正确回答医学考试问题或对金融文本进行情感分类。参数高效微调方法,如低秩适配(LoRA)[11 (https://arxiv.org/html/2605.13936#bib.bib64)]、量化低秩适配(QLoRA)[5 (https://arxiv.org/html/2605.13936#bib.bib65)]和通过抑制和放大内部激活进行适配器注入(IA3)[19 (https://arxiv.org/html/2605.13936#bib.bib69)],通过减少可训练参数和内存需求,同时保持竞争力,使得模型适配变得相当实用。因此,PEFT成为在计算资源有限的现实环境中适配LLM的自然选择。这在医学和金融等高风险的领域尤为相关,这些领域的专业术语、任务格式和推理模式与通用预训练语料库有显著差异。最近的工作(例如[18 (https://arxiv.org/html/2605.13936#bib.bib66),26 (https://arxiv.org/html/2605.13936#bib.bib56)])表明,集中式微调可以在两个领域都取得强劲表现,大规模医学和金融评估工作也证明了这一点。然而,集中式设置假设所有任务数据可以集中在一个位置,这在实践中往往不现实。在许多实际部署中,数据分布在各个机构(节点)之间,并且由于隐私限制、保密要求或监管规定,无法自由共享。联邦学习[23 (https://arxiv.org/html/2605.13936#bib.bib2)]提供了一种自然的替代方案,允许多个节点在不交换原始数据的情况下协作微调共享模型(见图1 (https://arxiv.org/html/2605.13936#S0.F1))。这种范式对于敏感领域的LLM适配尤其有吸引力,但也引入了新的挑战,包括节点间的非独立同分布数据(可能降低模型性能)、通信开销和内存限制。尽管最近的研究如FedLLM-Bench[36 (https://arxiv.org/html/2605.13936#bib.bib59)]和FlowerTune[7 (https://arxiv.org/html/2605.13936#bib.bib60)]推动了联邦LLM微调的基准测试,但文献中仍缺乏在相同实验协议下对训练场景、领域、任务类别和效率维度进行充分受控的比较。 ### 1.1 动机 尽管近期工作已展示了集中式[34 (https://arxiv.org/html/2605.13936#bib.bib57),20 (https://arxiv.org/html/2605.13936#bib.bib58),4 (https://arxiv.org/html/2605.13936#bib.bib53),6 (https://arxiv.org/html/2605.13936#bib.bib54),33 (https://arxiv.org/html/2605.13936#bib.bib55)]和联邦LLM微调[7 (https://arxiv.org/html/2605.13936#bib.bib60),36 (https://arxiv.org/html/2605.13936#bib.bib59),35 (https://arxiv.org/html/2605.13936#bib.bib61),3 (https://arxiv.org/html/2605.13936#bib.bib62)]的潜力,但它们在跨领域、基准测试和PEFT策略下的比较行为仍未完全理解。现有研究通常集中于单一领域、单一基准测试或单一适配策略,使得难以确定不同PEFT方法在可比条件下在不同训练范式下的表现。这种缺乏受控比较的问题在医学和金融等敏感领域尤为重要,因为这些领域的模型部署不仅需要评估预测质量,还要考虑实际效率。在这些环境中,通信成本、内存占用和对非IID数据的鲁棒性可能和准确率一样重要,决定微调策略在实践中是否可行。这些考虑促使了本文基准测试的提出。我们旨在提供集中式、单机构和联邦PEFT在多个领域和任务类型下的受控比较,同时纳入对实际部署至关重要的效率指标。 ### 1.2 贡献 本文不提出新的FL算法或优化方法,而是呈现一个在集中式、单机构和联邦设置下对LLM进行PEFT的实验基准测试。该基准测试的主要贡献如下: - • 我们比较了基于PEFT的LLM适配在三种训练场景下的表现:单机构学习、集中式学习和联邦学习。所有场景均使用三种代表性PEFT方法(LoRA、QLoRA和IA3适配器)在共同实验协议下进行评估。 - • 我们评估了不同方法和场景在两个任务类别(封闭式问答和分类)以及两个敏感领域(医学和金融)下的表现,实现了受控的跨领域和跨任务比较。 - • 我们用效率指标(通信成本和内存占用)补充准确率结果,并明确使用狄利克雷分布[13 (https://arxiv.org/html/2605.13936#bib.bib26)]划分协议模拟非IID联邦条件来创建节点。 本文其余部分安排如下:第2节 (https://arxiv.org/html/2605.13936#S2)介绍问题形式化。第3节 (https://arxiv.org/html/2605.13936#S3)描述隐私保护机器学习解决方案,包括LLM微调设置和FL基础。第4节 (https://arxiv.org/html/2605.13936#S4)详述数据集、预处理流程和集中式架构,第5节 (https://arxiv.org/html/2605.13936#S5)描述联邦基准测试设置和节点创建。第6节 (https://arxiv.org/html/2605.13936#S6)报告实验设置和结果。第7节 (https://arxiv.org/html/2605.13936#S7)讨论所得结果。最后,第8节 (https://arxiv.org/html/2605.13936#S8)总结全文。 ## 2 问题形式化 本节介绍本文解决的问题:为封闭式问答和分类任务微调LLM。我们首先介绍LLM和LLM微调,然后形式化监督学习问题。 ### 2.1 LLM与LLM微调 LLM是一种旨在大规模处理、生成和推理自然语言的神经网络。现代LLM通常基于Transformer架构,通过自注意力机制捕捉文本中的长距离依赖和复杂模式。通过在海量文本语料库上进行预训练,这些模型获得了广泛的语言知识和通用能力,随后可以适配到特定的应用领域和任务。LLM微调是指在标注任务数据上进一步优化预训练语言模型,使其适应特定任务的过程。如图2 (https://arxiv.org/html/2605.13936#S2.F2)所示,该过程从在大规模通用语料库上进行大规模预训练获得的预训练LLM开始。然后使用领域特定的标注数据集适配模型,同时保留预训练期间获得的通用知识。在此阶段,优化与任务相关的参数,使模型更好地捕捉目标领域所需的术语、结构和决策模式。最终得到针对该任务专门的微调LLM。在本工作中,目标任务为封闭式问答和分类,模型必须从有限的有效输出集合中预测正确的答案选项或类别标签。 参见图注图2:从预训练到领域特定适配的简化LLM微调流程概览。 尽管预训练LLM捕捉到了广泛的 linguistic 知识,但它们在医学和金融等专业领域未必表现最优。微调通过让模型接触任务特定示例来弥补这一局限,从而提升其遵循目标格式和生成有效领域特定输出的能力。与基于固定维度特征向量的经典ML方法不同,LLM微调直接对标记化的文本序列进行操作。模型接收提示,并被训练生成正确的补全内容,在我们的设置中对应标签或答案选项。由于完全微调所有模型参数通常计算成本高昂,本工作聚焦于PEFT方法,如LoRA、QLoRA和IA3适配器,这些方法仅更新一小部分任务特定参数,同时保持预训练骨干模型固定或大部分冻结。之所以选择这些方法,是因为它们是近期文献中用于高效LLM适配最广泛采用且最具代表性的方法之一,在性能和计算成本之间提供了实用的权衡[9 (https://arxiv.org/html/2605.13936#bib.bib70),5 (https://arxiv.org/html/2605.13936#bib.bib65),11 (https://arxiv.org/html/2605.13936#bib.bib64)]。这使得它们特别适用于集中式和联邦训练设置。 ### 2.2 相关工作 本小节回顾与本文最相关的工作,即集中式和联邦LLM微调。我们强调先前在参数高效适配、敏感领域应用和现实评估设置方面的研究。这些背景有助于定位我们工作中呈现的基准测试和比较分析。 #### 2.2.1 集中式LLM微调 最近的工作表明,集中式微调仍然是适配LLM到特定领域任务的强基线,尤其是在医学和金融等高风险的领域。在医学领域,[18 (https://arxiv.org/html/2605.13936#bib.bib66)]强调了临床评估设置的广泛性,并指出稳健的评估应超越单一基准测试或提示策略。类似地,[4 (https://arxiv.org/html/2605.13936#bib.bib53)]研究了医学LLM的微调策略,比较了全参数和参数高效适配,表明PEFT在大幅降低训练成本的同时可以保持竞争力。最近,[37 (https://arxiv.org/html/2605.13936#bib.bib76)]进一步证明有针对性的微调可以提升医学推理能力,强化了医疗任务中专门适配流程的重要性。在金融领域,近期研究证实通用LLM在领域适配后显著受益。[6 (https://arxiv.org/html/2605.13936#bib.bib54)]研究了指令微调用于金融分类任务,表明微调后的模型在专门金融语言理解方面可以超越未微调的基线。[33 (https://arxiv.org/html/2605.13936#bib.bib55)]表明参数高效和量化适配在金融领域特别有吸引力,因为通常需要本地部署和内存效率。在更广泛的层面上,[26 (https://arxiv.org/html/2605.13936#bib.bib56)]证明在统一基准测试上评估时,微调可以在广泛的金融任务上带来显著收益,而[34 (https://arxiv.org/html/2605.13936#bib.bib57)]强调了在高风险金融场景中系统比较PEFT方法的必要性。更一般地,[20 (https://arxiv.org/html/2605.13936#bib.bib58)]表明适配可以提高任务性能,同时也会改变推理行为,因此仔细的基准设计尤为重要。尽管取得了这些进展,大多数集中式研究聚焦于单一领域、单一训练机制或少数PEFT策略。相比之下,我们的工作在统一的测试平台上,跨金融和医疗封闭式基准测试评估多种PEFT方法,在相同评估指标下比较多个骨干模型。这提供了集中式微调在不同领域下表现的受控视图,并为其隐私保护对应方法创建了更强的基线。 #### 2.2.2 联邦LLM微调 联邦微调最近成为一种有前景的替代方案,适用于领域数据分布且无法集中汇总的场景。FedLLM-Bench[36 (https://arxiv.org/html/2605.13936#bib.bib59)]是LLM联邦学习的首批现实基准测试之一,表明先前的评估通常依赖过于人工的设置,而真实的客户端多样性对于公平比较至关重要。独立地,FlowerTune[7 (https://arxiv.org/html/2605.13936#bib.bib60)]提出了一个跨领域联邦LLM微调基准测试,涵盖通用NLP、金融、医学和编程,从而强调了评估套件需要超越单一领域的必要性。
相似文章
领域自适应大语言模型中的训练数据审计:LoRA-MINT
LoRA-MINT 是一种用于对经 LoRA 微调的大语言模型进行成员推理测试的方法,在判断数据是否用于训练方面实现了高精度,并超越了基线方法。
LLM微调中数据选择的长期影响
本文研究了多阶段LLM微调中数据选择策略的长期影响,揭示了短视选择会损害未来适应能力。为此,提出了一种长期视角感知选择(LHAS)目标以缓解这些问题。
联邦学习
本文解释了联邦学习作为一种保护隐私的机器学习技术的概念,该技术通过在本地设备而非中央服务器上训练模型来实现。文章详细描述了加密参数更新和聚合的过程,旨在降低数据泄露风险,同时保持模型性能。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
大语言模型预训练的数据混合:综述与展望
# 大语言模型预训练的数据混合:综述与展望 来源:[https://arxiv.org/abs/2604.16380](https://arxiv.org/abs/2604.16380) [查看 PDF](https://arxiv.org/pdf/2604.16380) > 摘要:大型语言模型(LLMs)依赖于在海量且异构的语料上进行预训练,在现实中的计算和数据预算限制下,训练数据的构成对训练效率和下游泛化能力有着决定性的影响。与样本级的数据选择不同,数据混