面向车辆网络的联邦基础模型

arXiv cs.LG 2026/06/08 04:00 论文

摘要

本文提出了将多模态多任务联邦基础模型（M3T FedFMs）集成到车辆网络中的愿景，讨论了训练原理、应用场景、挑战以及基于Waymo开放数据集的案例研究。

arXiv:2606.06786v1 Announce Type: new Abstract: This paper presents a forward-looking vision for integrating the emerging multi-modal multi-task federated foundation models (M3T FedFMs) into vehicular networks, with the goal of unifying the expressive power of multi-modal multi-task foundation models (M3T FMs) with the privacy-preserving and distributed learning capabilities of federated learning (FL). Given the largely underexplored nature of this research direction, we first introduce the fundamental training/fine-tuning principles of M3T FedFMs. We then discuss a range of their representative use cases in vehicular networks, illustrating the significant potential of M3T FedFMs to enable next-generation vehicular intelligence. Afterwards, we identify key constraints inherent to vehicular environments that challenge the practical deployment of M3T FedFMs, and articulate a set of forward-looking research directions to address these challenges. Furthermore, through a case study conducted on a real-world vehicular dataset (i.e., Waymo Open Dataset), we demonstrate the promise of M3T FedFMs for vehicular networks and release our implementation to facilitate reproducibility and stimulate research in this emerging area (repository: https://github.com/KasraBorazjani/vehicular-fedfm)

查看原文

查看缓存全文

缓存时间: 2026/06/08 09:18

# 基于车辆网络的联邦基础模型
来源: https://arxiv.org/html/2606.06786
Kasra Borazjani, Fardis Nadimi, Payam Abdisarabshali, Owen Palinski, Allan Salihovic, Dinh Nguyen, Minghui Liwang, and Seyyedali Hosseinalipour

###### 摘要

本文提出了一种前瞻性愿景，旨在将新兴的多模态多任务联邦基础模型（M3T FedFMs）集成到车辆网络中，目标是将多模态多任务基础模型（M3T FMs）的表达能力与联邦学习（FL）的隐私保护及分布式学习能力相统一。鉴于这一研究方向尚未被充分探索，我们首先介绍 M3T FedFMs 的基本训练/微调原理。然后，我们讨论其在车辆网络中的一系列代表性用例，展示 M3T FedFMs 在实现下一代车辆智能方面的巨大潜力。随后，我们指出了车辆环境固有的关键约束，这些约束对 M3T FedFMs 的实际部署构成挑战，并阐述了一套前瞻性的研究方向以应对这些挑战。此外，通过在真实车辆数据集（即 Waymo Open Dataset）上进行的案例研究，我们展示了 M3T FedFMs 在车辆网络中的应用前景，并公开了我们的实现代码，以促进可复现性并激发这一新兴领域的研究（代码仓库: https://github.com/KasraBorazjani/vehicular-fedfm）。

## I. 引言

机器学习领域近年来随着大语言模型（LLMs）的出现经历了重大变革，LLMs 在理解、生成和推理自然语言方面展现出卓越能力，能够完成多种任务（如文本摘要、翻译和语义分析）[1](https://arxiv.org/html/2606.06786#bib.bib165)。尽管 LLMs（如 GPT 2 和 Gemini 1）可被视为最近最突出的突破，但机器学习同时正经历一场更广泛且更具结构性转变的推动，这一转变源于多模态多任务基础模型（M3T FMs）的兴起。具体而言，M3T FMs（如 GPT 5 和 Gemini 3）将 LLMs 以文本为中心的能力扩展到共同处理、融合和推理异构数据模态（如视觉、音频和文本），同时支持在统一模型架构内并发学习多个任务（如图像生成、分类、分割和描述生成）。

与机器学习领域的这些重大创新并行，车辆网络正因边缘原生机器学习应用的部署而发生范式转变。特别是，车辆越来越多地被设想为配备多模态传感器（包括激光雷达、毫米波雷达、广角摄像头和全球导航卫星系统）的移动边缘节点，并期望执行多个下游任务，如 3D 目标检测、轨迹预测以及协同规划/导航[6](https://arxiv.org/html/2606.06786#bib.bib166)。这一演进为将 M3T FMs 集成到车辆网络生态系统中提供了独特机遇。然而，尽管前景广阔，实际中实现这种集成仍非易事：一个主要挑战源于 M3T FMs 主要采用集中式训练/微调，这与车辆网络的数据获取现实根本不符。具体而言，车辆网络中的数据通常地理分布在各车辆、路侧单元（RSUs）以及边缘/云基础设施上，将这些数据集中起来用于训练/微调 M3T FMs 可能会引发隐私担忧（因为敏感感知、位置或行为信息会暴露给不可信方），并且由于传输原始多模态数据而带来巨大的通信开销。

这些挑战促使我们转向采用分布式学习原则，其中最突出的例子是联邦学习（FL）[11](https://arxiv.org/html/2606.06786#bib.bib61)，用于在车辆网络上训练/微调 M3T FMs。这一转变最近催生了机器学习中一个新兴且快速发展的研究方向，即多模态多任务联邦基础模型（M3T FedFMs）[12](https://arxiv.org/html/2606.06786#bib.bib157)，它使得能够在分散的数据源之间协作训练/微调 M3T FMs，同时保持数据本地性。然而，尽管在机器学习社区引起了关注，M3T FedFMs 在车辆网络中的应用仍基本未被探索。

受此空白驱动，在这项工作中，我们提出了将 M3T FedFMs 集成到车辆网络中的愿景，我们的贡献总结如下：（i）我们阐述了 M3T FedFMs 的模块化架构，将其定位为车辆智能领域一个前景广阔但尚未充分探索的范式。（ii）我们进行了一个案例研究，以展示 M3T FedFMs 在车辆网络中的潜力，并公开发布了相应的源代码，为这一未充分探索领域的未来评估建立基准。（iii）我们识别出影响 M3T FedFMs 设计和性能的车辆网络独特特征，并通过一系列前瞻性研究方向，展望未来 M3T FedFMs 框架应如何适应这些特征。

## II. 相关工作与背景

### II-A. 车辆网络中的联邦学习

传统的联邦学习迭代地经历三个主要步骤，直至模型收敛：（i）联邦学习设备（如车辆）使用其私有数据独立训练本地模型；（ii）它们定期将模型更新（如参数或梯度）传输给协调服务器；（iii）服务器聚合接收到的更新（如通过加权平均）以构建全局模型，然后广播回客户端，以同步它们的本地模型并启动下一轮模型训练。由于其隐私保护特性（模型训练期间原始数据从未离开客户端），联邦学习已在车辆网络中广泛采用。代表性应用包括驾驶员监控、个性化驾驶行为建模、高级驾驶辅助系统（ADAS）与转向控制、协同感知及交通预测/管理[5](https://arxiv.org/html/2606.06786#bib.bib152)。

### II-B. 车辆系统中的 M3T FMs

探索各种 M3T FMs 在车辆网络中的应用是一个近期研究课题。例如，EMMA（端到端多模态自动驾驶模型）是一种 M3T FM，它集成摄像头输入和导航指令以生成规划轨迹、感知目标和道路图元素等输出[7](https://arxiv.org/html/2606.06786#bib.bib162)。此外，Drive Anywhere 是一种为通用化端到端自动驾驶设计的 M3T FM[14](https://arxiv.org/html/2606.06786#bib.bib161)。进一步地，DeepInteraction++ 是一种用于自动驾驶的 M3T FM[15](https://arxiv.org/html/2606.06786#bib.bib159)，在 3D 目标检测和端到端驾驶任务中表现出色。总体而言，这些研究展示了将 M3T FMs 集成到车辆网络中的潜力；然而，它们依赖于 M3T FMs 的集中式训练/微调，即首先在集中式位置（如云服务器）收集数据，然后进行模型训练。这种假设可能无法自然地扩展到真实的车辆网络中，因为这些网络中的数据是以地理分布方式在各车辆和路侧单元中生成和存储的。

### II-C. M3T FedFMs：融合联邦学习与 M3T FMs

M3T FedFMs 作为下一代主要技术之一，在机器学习和无线/通信社区都获得了高度关注[12](https://arxiv.org/html/2606.06786#bib.bib157)。尽管如此，M3T FedFMs 在车辆网络内的集成仍高度未探索，该领域现有工作极少。最相关的工作是 [8](https://arxiv.org/html/2606.06786#bib.bib158) 中的 pFedLVM，它通过保持 LVM 骨干集中化并将潜在特征共享给车辆，实现了个性化学习，从而解决了在联邦设置中部署大型视觉模型（LVM）的挑战。据我们所知，pFedLVM 是首批提出在车辆网络上实现 M3T FedFMs 框架的工作之一。因此，我们的总体目标是阐明与在车辆环境中训练/微调 M3T FedFMs 相关的独特挑战和设计考虑，从而推动这一新兴领域的进一步研究，并勾勒出通往下一代 M3T FedFM 赋能现代车辆系统智能的路线图。

## III. M3T FedFMs 的学习架构

简而言之，M3T FedFMs 使得能够在一组分散的设备（如车辆）上分布式训练 M3T FMs。由于这一研究方向的最新性和持续演进，目前 M3T FMs 没有唯一的学习架构，进而 M3T FedFMs 也是如此。因此，为了奠定讨论基础，并参考该领域的最新进展[3](https://arxiv.org/html/2606.06786#bib.bib33),[2](https://arxiv.org/html/2606.06786#bib.bib137)，我们通过将 M3T FMs 的设计分解为三个核心组件来描绘其模块化架构，然后讨论这种模块化如何扩展到 M3T FedFMs 范式。

参见图注图 1：M3T FM 架构示意图，包括模态编码器、共享骨干（如专家混合 (MoE) 或堆叠 Transformer）以及任务头。此外，可以采用轻量级适应机制，如提示调优、低秩适应 (LoRA) 和适配器层，以实现参数高效的模型微调。

### III-A. M3T FMs 的架构

如图 1 所示，M3T FM 的架构可分解为以下三个组件：

1. 模态编码器：模态编码器作为 M3T FM 的前端，每个编码器负责处理一种特定的输入模态（如激光雷达、广角摄像头或 GNSS 信号）。具体而言，每个模态编码器将原始感知输入转换为潜在嵌入表示，该表示捕捉对应模态的显著特征，随后传递给模型的主干进行进一步处理。

2. 骨干：模型骨干负责跨模态对齐和融合，产生统一的潜在表示，可适应下游任务。该骨干可以采用多种架构形式，以下概述两种常见选择：

   (i) 堆叠 Transformer（如 GPT、Gemini、CLIP [13](https://arxiv.org/html/2606.06786#bib.bib135)）：堆叠 Transformer 骨干架构使用多层自注意力和前馈网络来捕获跨模态的长期依赖关系和复杂交互。

   (ii) 专家混合（如 DeepSeek [9](https://arxiv.org/html/2606.06786#bib.bib136)）：专家混合 (MoE) 骨干将模型分解为一组专门的专家子网络，通过门控机制动态地将输入路由到一部分专家。这种设计实现了条件计算，允许不同模态、任务或输入上下文激活不同的专家。

3. 任务头：任务头通常作为轻量级神经模块实现，将模型骨干产生的嵌入映射到具体的任务特定预测，如控制命令或动作/决策概率。

参见图注图 2：M3T FedM 架构在车辆边缘节点集上的示意图（左侧橙色框收集图中现有的数据模态）。每个车辆边缘节点使用参数高效适应技术（如提示调优、LoRA 或适配器层）对其模型进行本地微调，以训练/微调其本地 M3T FM，并将由此产生的模型更新传输给服务器。然后，服务器聚合接收到的模型更新以优化全局模型参数，并将更新后的全局模型分发回节点以进行后续训练轮次。

### III-B. M3T FedFMs 的架构

鉴于 M3T FMs 通常是拥有数十亿/万亿参数的大规模模型，它们通常经历一个初始的预训练阶段，该阶段通常是集中式的，并将模型暴露给大规模数据集。随后，这些模型在更窄的、任务特定的数据集上进行训练/微调，以使其适应感兴趣的下游任务。在此背景下，M3T FedFMs 使得能够在地理分布的设备之间分布式训练/微调 M3T FMs，这些设备收集与目标下游任务相关的数据。

具体而言，在 M3T FedFMs 中（见图 2），通常避免全模型训练，因为这在资源受限的客户端上通常不可行。相反，客户端使用参数高效微调 (PEFT) 技术来本地适应选定的模型组件/模块，随后将其本地学习的模型更新（如梯度或模块参数）传输给协调服务器。服务器聚合这些更新，并将细化后的参数分发回客户端以进行后续训练轮次。虽然此聚合过程在很大程度上类似于传统 FL，但一个关键区别在于它在模块级别操作，而不是在整个模型上（即，对与 PEFT 启用的模块相关的参数进行加权聚合）。具体而言，代表性的 PEFT 技术及其后续的 PEFT 启用模块（见图 1 了解它们在节点本地 M3T FM 中的位置）如下：

- **低秩适应 (LoRA)**：低秩适应 (LoRA) 在选定的骨干层中注入可训练的低秩矩阵；这些矩阵构成 PEFT 模块，在客户端之间训练和聚合。
- **提示调优**：提示调优在骨干输入前添加一小部分可训练的提示嵌入；这些嵌入构成 PEFT 模块，在客户端之间训练和聚合。
- **适配器调优**：适配器调优在选定的骨干层之间插入轻量级、可训练的瓶颈层；这些层构成 PEFT 模块，在客户端之间训练和聚合。
- **专家混合 (MoE) 训练**：MoE 训练更新为特定输入、模态或任务激活的一部分专家子网络；这些专家的参数（以及门控网络，如果适用）构成 PEFT 模块，在客户端之间训练和聚合。

## IV. M3T FedFMs 在车辆网络中的用例

在本节中，我们概述了 M3T FedFMs 在车辆生态系统关键利益相关方（包括自动驾驶车辆、人类驾驶员和乘客以及车辆网络运营商）中的代表性用例。对于每个用例，我们 (i) 识别所涉及的典型数据模态，(ii) 描述预期的下游任务，以及 (iii) 给出一个突出 M3T FedFMs 在车辆环境中潜力的示例。

### IV-A. 用例 1：M3T FedFM 赋能的自动驾驶车辆

跨自动驾驶车辆（如自动驾驶汽车、公交车和配送车队）的 M3T FedFMs 允许每辆车在不共享原始感知数据的情况下，使 M3T FM 适应其本地感知条件和运营目标/任务。特别是，自动驾驶车辆通常配备多模态感知能力，包括

面向车辆网络的联邦基础模型

相似文章

面向模态异质性下的鲁棒联邦多模态图学习

M$^2$FedAQI: 用于异构边缘设备空气质量预测的多模态联邦学习

探测、融合与可信度：面向多模态癌症分析的基础模型表征系统评估

InternVideo3: 使用多模态上下文推理将基础模型智能体化

迈向原生多模态建模：路线图

提交意见反馈