构建机器智能的物理AI层

arXiv cs.LG 2026/06/04 04:00 论文

摘要

# MIT林肯实验室提出"原理驱动基础模型"：无需微调即可跨域泛化 MIT林肯实验室的研究人员提出了一种名为**"原理驱动基础模型"（principle-driven foundation models）**的新范式。与传统方法不同，该范式将信号理论物理原理（傅里叶分解、能量守恒、对称性）直接编码到模型中，而非依靠从大量配对数据集中学习统计相关性。 ## 核心思路传统基础模型的训练范式通常需要： - 海量标注数据 - 跨域配对样本 - 针对下游任务的微调而该研究另辟蹊径——**仅使用RF（射频）数据进行训练**，并将傅里叶分解、能量守恒、对称性等物理原理内嵌于模型架构本身，使模型能够捕捉信号在本质层面的通用特征，而非特定域的统计规律。 ## 关键结果该模型的冻结编码器（frozen encoder）仅有 **199万参数**，却在以下条件下取得了令人瞩目的成绩： - **跨越15项多样化任务**，涵盖音频、图像、文本和视频四大模态 - **无需对目标域进行任何微调** - **平均准确率达到77.7%** ## 为何值得关注 | 特性 | 传统基础模型 | 原理驱动基础模型 | |------|------------|----------------| | 训练数据来源 | 多模态大规模配对数据 | 仅RF数据 | | 参数规模 | 通常数十亿级 | 仅199万 | | 跨域泛化 | 依赖微调 | 零样本迁移 | | 泛化依据 | 统计相关性 | 物理原理 | ## 深层意义这项研究表明，**物理原理本身可以作为一种强大的归纳偏置（inductive bias）**，使模型在极低参数量和数据量的条件下实现跨模态泛化。这对于数据稀缺、计算资源受限的应用场景尤为重要，同时也为"可解释AI"提供了一条新路径——模型的泛化能力来源于可解释的物理规律，而非黑箱式的统计拟合。该工作挑战了"规模即能力"的主流叙事，暗示在某些场景下，**结构化的物理先验知识可能比堆砌数据和参数更为高效**。

arXiv:2606.04106v1 公告类型：新论文摘要：基础模型通过在多样化数据上进行大规模训练来实现泛化，但在没有配对训练数据的情况下，迁移到真正未见过的领域时存在局限性。我们提出了原理驱动的基础模型，该模型编码信号理论原理（傅里叶分解、能量守恒、对称性），而非学习无约束的统计相关性。我们假设各领域之间的差异不在于基础物理规律，而在于时间、频率、幅度或相位上可学习的变换。我们仅在射频（RF）数据上进行训练，并采用融入上述原理的协同设计架构与损失函数，从而实现向音频、图像、文本和视频的跨模态迁移——仅需使用从 RF 数据中学到的冻结表示，无需对编码器在目标域上进行任何微调。我们的 199 万参数冻结编码器通过线性探测在 15 项多样化任务中实现了平均 77.7% 的准确率（top-3 准确率为 91.9%），并呈现出系统性规律：在物理基础任务（说话人识别、地震学、RF 指纹识别）上达到 84.5%，而在语义任务（音乐流派、语言识别）上为 70.0%。这一结果揭示，原理驱动方法与规模驱动方法提供了互补的路径：物理原理能够高效实现跨模态迁移，同时自然地划定了物理理解与语义理解之间的边界。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:20

# 构建机器智能的物理AI层

来源：https://arxiv.org/html/2606.04106

Ulbert J\. Botero MIT Lincoln Laboratory Joey\.Botero@ll\.mit\.edu &Liam Smith MIT Lincoln Laboratory Liam\.Smih@ll\.mit\.edu Brooks Olney MIT Lincoln Laboratory Brooks\.Olney@ll\.mit\.edu &Pooya Khorrami MIT Lincoln Laboratory Pooya\.Khorrami@ll\.mit\.edu &Steven Kusiak MIT Lincoln Laboratory Steven\.Kusiak@ll\.mit\.edu &Watson Jia MIT Lincoln Laboratory Watson\.Jia@ll\.mit\.edu &Sage Trudeau MIT Lincoln Laboratory Sage\.Trudeau@ll\.mit\.edu &Daniel Capecci MIT Lincoln Laboratory Daniel\.Capecci@ll\.mit\.edu

###### 摘要

基础模型通过对多样化数据进行大规模训练来实现泛化，但在缺乏配对训练数据的情况下，向真正未见过的领域迁移时存在局限性。我们提出**原则驱动的基础模型**，该模型编码信号理论原则（傅里叶分解、能量守恒、对称性），而非学习无约束的统计相关性。我们假设，不同领域之间的差异并非源于根本不同的物理规律，而是源于在时间、频率、幅度或相位上可学习的变换。仅在射频（RF）数据上训练，通过架构与损失函数的协同设计融入上述原则，我们无需对编码器在目标域进行任何微调，即可实现向音频、图像、文本和视频的跨模态迁移，仅使用从 RF 数据中学到的冻结表示。我们的 1.99M 参数冻结编码器通过线性探测在 15 个多样化任务中实现了平均 77.7% 的准确率（top-3 为 91.9%），并呈现出系统性规律：在物理基础任务（说话人识别、地震学、RF 指纹识别）上达到 84.5%，而在语义任务（音乐流派、语种识别）上为 70.0%。这揭示了原则驱动方法与规模驱动方法提供了互补路径：物理原则可实现高效的跨模态迁移，同时自然地划定了物理理解与语义理解之间的边界。

## 1 引言

基础模型通过对多样化多模态数据进行大规模自监督学习来实现泛化radford2021learning (https://arxiv.org/html/2606.04106#bib.bib1);girdhar2023imagebind (https://arxiv.org/html/2606.04106#bib.bib2)。这种规模驱动的范式假设，泛化能力来自于通过大量配对训练数据在不同领域间学习到的相关性。尽管这类模型在其训练分布内表现出色，但在向训练数据中不存在的领域进行跨模态迁移时面临挑战fang2022data (https://arxiv.org/html/2606.04106#bib.bib3);miller2021accuracy (https://arxiv.org/html/2606.04106#bib.bib4);taori2020measuring (https://arxiv.org/html/2606.04106#bib.bib5)。

我们提出一种互补方法：**原则驱动的基础模型**，编码物理定律而非学习统计相关性。所有结构化数据——时间序列、空间图像、图网络——都可以视为在某个域上定义的信号。傅里叶定理的泛化超越了经典的时频分析：图傅里叶变换可分解图上的信号shuman2013emerging (https://arxiv.org/html/2606.04106#bib.bib6)，球谐函数作用于球面，小波则跨尺度分析。通过将模型建立在这些通用信号理论原则之上，我们假设跨模态泛化是可行的。我们展示了这一方向上的一个有前景的步骤：无需任何编码器微调，即可实现从单一训练域到多样化未见域的跨模态迁移。

我们的方法建立在两个原则之上：（1）**傅里叶分解**——无论在何种域中，信号均可分解为频率分量；（2）**对称性学习**——表示应在操作（平移、旋转、缩放）下以可预测的方式变换。我们假设**区分不同领域的并非根本不同的物理规律，而是在时间、频率、幅度或相位上可学习的变换**。若此假设成立，则在一个信号丰富的域上学习变换规则，应能迁移到任何具有相同数学结构的域。

我们通过仅在射频（RF）数据上训练来验证这一假设——RF 在语境上与我们的评估目标（图像、语音、地震学、文本）相距甚远，但在信号多样性方面极为丰富——然后通过对冻结表示的线性探测评估跨模态迁移效果。冻结编码器探测在物理基础任务（乐器分类、说话人识别、RF 指纹识别、调制分类、地震事件检测）上取得了 84.5% 的平均准确率，在语义任务（音乐流派、语种识别、服装分类）上取得了 70.0% 的平均准确率，涵盖时间序列（地震学、RF、语音）、图像（MNIST、FashionMNIST）和视频等多种模态。

这一系统性规律支持我们的假设：信号理论学习能够捕获物理结构，但语义内容需要进一步抽象。关键在于，这不是一个局限，而是一个特性——它揭示了我们方法的边界，并暗示了一种层次化 AI 架构：物理基础模型提供基础层，语义推理可在此之上构建。

我们强调，我们的目标与典型的监督学习基准测试不同。我们不问"在任务 X 上能达到的最佳性能是多少？"，而是问"仅在 RF 上训练能否实现对任务 X 的有意义迁移？"我们的贡献在于证明物理驱动的迁移是可行且有竞争力的（在物理任务上与 CLIP 相差仅 3.2%，但参数量减少 76 倍），提供了一条资源高效、与规模驱动方法互补的路径。

我们的贡献如下：

1. 1\.我们证明，在单一信号丰富的域（RF）上训练即可实现零样本跨模态泛化，在无需编码器微调的情况下取得强劲性能（top-3 平均准确率 91.9%），确立了原则驱动设计作为规模驱动方法的可行补充路径，尤其在物理基础任务上效果显著。
2. 2\.我们提出 PlanFormer，通过协同设计的架构（Parseval Focus、频率保持池化）和对称性损失（IsoFICReg、LED）嵌入信号理论原则。
3. 3\.我们通过系统性评估划定了物理理解与语义理解之间的边界，表明信号理论学习能够捕获物理结构（top-1 平均准确率 84.5%），但无法捕获语义内容（top-1 平均准确率 70.0%），揭示了仅凭信号处理原则能够学到什么以及不能学到什么。

## 2 相关工作

**多模态基础模型：** 多模态基础模型radford2021learning (https://arxiv.org/html/2606.04106#bib.bib1);girdhar2023imagebind (https://arxiv.org/html/2606.04106#bib.bib2)通过在大规模多样化配对数据上训练，在训练分布内学习语义相关性来实现泛化。相比之下，我们在单一域（RF）上训练，并迁移到完全未见过的域，测试仅凭物理原则是否足以实现跨模态泛化。

**物理信息机器学习：** 物理信息神经网络raissi2019physicsinformed (https://arxiv.org/html/2606.04106#bib.bib7)和傅里叶神经算子li2021fourier (https://arxiv.org/html/2606.04106#bib.bib8)针对特定领域问题融入物理约束。我们将其扩展至基础模型：编码通用信号理论原则（傅里叶分解、能量守恒、对称性），以实现跨模态迁移，而非特定域的解决方案。

**对称性与等变性：** 群等变网络cohen2016group (https://arxiv.org/html/2606.04106#bib.bib9);weiler2019general (https://arxiv.org/html/2606.04106#bib.bib10)对特定域的对称性进行硬编码。另一些方法则通过有针对性的数据增强和 SSL 准则来学习等变对称性yu2025selfsupervisedtransformationlearningequivariant (https://arxiv.org/html/2606.04106#bib.bib11);garrido2023self (https://arxiv.org/html/2606.04106#bib.bib12)。我们在后者的基础上，通过以傅里叶分析为锚点的显式等变目标（LED）来学习针对基本对称性的等变性。

**自监督学习（SSL）：** SSL 方法通过掩码预测he2022masked (https://arxiv.org/html/2606.04106#bib.bib13)、对比学习pmlr-v119-chen20j (https://arxiv.org/html/2606.04106#bib.bib14)或冗余消除bardes2021vicreg (https://arxiv.org/html/2606.04106#bib.bib15)来学习表示。我们对 VICReg 进行扩展，引入焦点重加权和相干积分richards2005fundamentals (https://arxiv.org/html/2606.04106#bib.bib16)以增强噪声鲁棒性，并以显式等变目标（LED）来补充不变性——学习表示应如何在变换下可预测地改变。

**深度学习中的信号处理：** 近期工作将信号处理与深度学习相结合：FNetlee-thorp-etal-2022-fnet (https://arxiv.org/html/2606.04106#bib.bib17)使用傅里叶变换，时频联合嵌入zhang2022self (https://arxiv.org/html/2606.04106#bib.bib18)处理双域信号。我们通过协同设计的架构和损失函数来强制执行基本物理定律：通过一致性机制实现 Parseval 定理、通过频率保持池化避免频谱偏置pmlr-v97-rahaman19a (https://arxiv.org/html/2606.04106#bib.bib19)、以及通过等变目标实现显式对称性学习。

## 3 方法

物理现象以具有通用数学结构的信号形式呈现。地震波、RF 传输和视觉场景在语义上各不相同，但共享基本属性：频率分解（傅里叶）、可预测的变换（对称性）以及因果结构。我们假设领域差异来自时间、频率、幅度或相位上的变换——这些变换体现为可学习的对称性。能够学习这些变换规则的模型，应能在具有相同数学结构的域之间泛化。

**RF 数据作为训练域：** 我们选择 RF 数据，因其具有出色的信号多样性：频率内容（kHz 至 GHz）、时间动态特性（调制、瞬变、衰落）以及变换类型（多普勒频移、多径、信道效应）。这种丰富的多样性迫使模型学习通用信号属性，而非特定域的捷径。RF 天然需要联合时频分析，使其成为学习双域表示的理想选择。关键在于，RF 与我们的评估域（图像、地震学、语音、组织病理学）相距甚远，为验证我们的假设提供了严格的测试。我们的 RF 指纹识别数据集包含精细的硬件缺陷，迫使模型学习高度判别性的特征，同时保留高阶结构。

### 3\.1 协同设计学习系统

我们的方法优先考虑有原则的设计，明确编码已确立的物理原则（傅里叶分解、能量守恒、对称性）——遵循类似于 Transformervaswani2023attentionneed (https://arxiv.org/html/2606.04106#bib.bib20)和 CNNlecun-gradientbased-learning-applied-1998 (https://arxiv.org/html/2606.04106#bib.bib21)的路径，即架构创新先于形式化理论理解。

标准架构缺乏使对称性损失产生有效梯度的归纳偏置。学习频率平移等变性需要保留高频信息——而标准池化会产生频谱偏置pmlr-v97-rahaman19a (https://arxiv.org/html/2606.04106#bib.bib19)，破坏了这一要求。因此，架构与损失函数必须协同设计。

我们设计 PlanFormer 的各组件，为学习目标提供计算基础：频率保持池化使等变性损失能够接收高频变换的梯度；Parseval Focus 强制执行能量守恒（一种物理信息架构约束）；Noise Sink 使不变性学习在负信噪比场景下成为可能。我们结合了互补的目标——对称性损失（IsoFICReg 用于不变性，LED 用于等变性）学习变换规则，以及用于实例特定细节的重建损失——每个目标均由特定的架构机制支撑。

### 3\.2 Plan(cherel)Former 架构

#### 3\.2\.1 双域架构

编码器通过同时在时域和频域处理信号，将傅里叶定理内嵌于双域处理过程中。输入信号并行处理：时域对原始信号进行操作，频域对其傅里叶变换进行操作。与傅里叶神经算子li2021fourier (https://arxiv.org/html/2606.04106#bib.bib8)采用非对称操作不同，PlanFormer 在两个域中均应用对称滑动卷积来学习互补的局部特征，并依赖 Transformer 机制处理全局依赖关系。

我们将信号表示为交错的实部-虚部同相和正交分量（IQ）对。实值输入（语音、图像）经过 Hilbert 变换BendatPiersol2010Hilbert (https://arxiv.org/html/2606.04106#bib.bib22)生成解析表示，突出瞬时频率和相位变化。在 Transformer 块内，我们对张量进行重塑，使每个 token 的嵌入交错来自连续序列索引的 IQ 对，确保序列长度与物理复数样本对齐。

**频率保持池化：** 标准池化会产生混叠并丢弃高频信息，导致频谱偏置pmlr-v97-rahaman19a (https://arxiv.org/html/2606.04106#bib.bib19)。这对学习频率平移等变性是灾难性的——若高频信息在早期被消除，等变性损失对高频变换就没有梯度信号。我们直接对复值频谱进行平均池化，保留频谱包络而非截断它。通过下采样，高频和低频信息均得以保留，频谱被压缩而非带限。

**卷积分词器：** 编码器将输入分割为不重叠的窗口，在两个域中分别处理每个窗口以捕获非平稳频谱行为。并行卷积分词器提取局部特征，在三个位置进行跨域门控融合：分词后、每个 Transformer 块后以及序列池化后。特定域的聚合尊重物理含义：时域输出拼接以保留时间顺序；频域输出取平均以保留全局周期信息。

#### 3\.2\.2 编码器：基于多头 Parseval Focus 的能量守恒

Parseval 定理建立了时域与频域之间的能量守恒关系parseval1799 (https://arxiv.org/html/2606.04106#bib.bib23)。为学习遵循这一原则的表示，我们引入多头 Parseval Focus，通过双向注意力和一致性正则化来强制执行跨域一致性。

该机制的运作方式如下：时域 token 经 FFT 处理，频域 token 经 IFFT 处理，利用交错 IQ 表示进行复值变换，然后进行特定域的 QKV 投影。在每个域内，我们计算缩放协方差 Focus：

Focus\(Q,K,V\)=softmax\(Cov\(Q,K\)⋅Lsequencedk⋅Kfocus\)V

其中 Cov\(Q,K\)=\(Q−μQ\)\(K−μK\)T 捕获函数关系而非瞬时相似性。焦点因子 Kfocus∈\[1,Lsequence\] 由注意力得分统计量（平均 token 区分度、比例

@snowboat84: 这是《当物理遇上AI系列》的下篇。物理在AI中的作用，主要可以分为以下四层：（1）第一层为最底层，贡献了计算的骨架，能量、熵、自由能这些嵌进了AI的训练目标里。（2）第二层为中层，物理塑造了网络的形状，Hopfield的Ising能量函数…

X AI KOLs Timeline

本文探讨了物理学在人工智能中的四层作用，从底层计算骨架到方法论层，认为物理学的方法论正从自然界迁移到AI领域。

构建机器智能的物理AI层

相似文章

DeepInsight: 物理AI栈的统一评估基础设施

面向现实世界的人工智能：与Yann LeCun的对话（12分钟阅读）

我在单页上手绘了完整的 AI 技术栈……而其中大部分并非模型。

加速物理AI的下一个阶段（3分钟阅读）

提交意见反馈