标签
提出CF-JEPA,一种无掩码的自监督学习框架,用于时间序列表示学习。该方法通过从随机裁剪中进行多视野前向预测,并利用在线编码器与指数移动平均目标编码器之间的不对称性,在分类、预测和异常检测任务上提升了性能。
本文提出了一种混合预训练目标,结合了JEPA潜在空间预测和MLM重建,用于语言模型,显示出改进的嵌入均匀性和语义-词汇平衡。
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
# MIT林肯实验室提出"原理驱动基础模型":无需微调即可跨域泛化 MIT林肯实验室的研究人员提出了一种名为**"原理驱动基础模型"(principle-driven foundation models)**的新范式。与传统方法不同,该范式将信号理论物理原理(傅里叶分解、能量守恒、对称性)直接编码到模型中,而非依靠从大量配对数据集中学习统计相关性。 ## 核心思路 传统基础模型的训练范式通常需要: - 海量标注数据 - 跨域配对样本 - 针对下游任务的微调 而该研究另辟蹊径——**仅使用RF(射频)数据进行训练**,并将傅里叶分解、能量守恒、对称性等物理原理内嵌于模型架构本身,使模型能够捕捉信号在本质层面的通用特征,而非特定域的统计规律。 ## 关键结果 该模型的冻结编码器(frozen encoder)仅有 **199万参数**,却在以下条件下取得了令人瞩目的成绩: - **跨越15项多样化任务**,涵盖音频、图像、文本和视频四大模态 - **无需对目标域进行任何微调** - **平均准确率达到77.7%** ## 为何值得关注 | 特性 | 传统基础模型 | 原理驱动基础模型 | |------|------------|----------------| | 训练数据来源 | 多模态大规模配对数据 | 仅RF数据 | | 参数规模 | 通常数十亿级 | 仅199万 | | 跨域泛化 | 依赖微调 | 零样本迁移 | | 泛化依据 | 统计相关性 | 物理原理 | ## 深层意义 这项研究表明,**物理原理本身可以作为一种强大的归纳偏置(inductive bias)**,使模型在极低参数量和数据量的条件下实现跨模态泛化。这对于数据稀缺、计算资源受限的应用场景尤为重要,同时也为"可解释AI"提供了一条新路径——模型的泛化能力来源于可解释的物理规律,而非黑箱式的统计拟合。 该工作挑战了"规模即能力"的主流叙事,暗示在某些场景下,**结构化的物理先验知识可能比堆砌数据和参数更为高效**。
本文介绍了遗憾预训练,一种基于自监督的框架,采用双视角架构将未来上下文融入因果语言模型训练中,在无需增加参数的情况下,将下游任务性能提升高达18个百分点。
NEPA 是一种新的视觉自监督学习和生成式预训练方法,它通过自回归方式预测下一个嵌入,并已添加至一个基准测试中用于评估。
该论文指出了基于softmax的InfoNCE损失与现代对比学习中的归一化嵌入设置之间的不一致性。它提出了WEINCE,一种简单的修改,利用极值理论将softmax logits与端点短缺校正相结合,在视觉基准测试中取得了持续的改进。
本线程展示了一个理论结果,表明预测抽象的潜在表征(如JEPA和data2vec)而非原始词元,可以指数级地缩小人工智能与人类学习之间的数据差距。
本文介绍了BrainSimSiam,一种轻量级自监督框架,利用孪生网络从仅正样本对中学习鲁棒的fMRI表征,即使在有限数据下也能在下游任务上取得强劲表现。
提出DIVE,一种用于嵌入维度缩减的压缩适配器,采用自限制梯度更新和头部级NT-Xent对比损失,防止在小数据集上过拟合,在BEIR基准测试上优于现有方法。
本文将实例判别自监督学习应用于图中的链接预测,提出了基于链接表示的新模型L-GRACE和L-BGRL,这些模型在无属性图上尤其能提升性能。
VCR是一个自监督框架,通过正交标记化和缺失感知的混合专家模型,从不完整的可穿戴信号中学习鲁棒的表示,在模态缺失下提升性能。
介绍了Alice,一个闭环系统,通过将失败的候选更新视为结构信号,在先验不对齐的情况下在线学习可执行世界模型,在具有语义重新映射标签的Baba Is You变体上实现了改进的性能。
Crys-JEPA 引入了一种用于晶体的联合嵌入预测架构,该架构学习了一个能量感知的潜在空间,在从头晶体发现方面实现了稳定性和新颖性的显著提升。
AudioMosaic 提出了一种基于对比学习的音频编码器,通过对频谱图块应用结构化时频掩码来构建正样本对,实现高效的大批量训练,在音频基准测试中达到最先进性能,并提升了音频-语言模型的效果。
CSI-JEPA是一个自监督框架,从无标签的Wi-Fi信道状态信息中学习可复用的表征,实现标签高效的多任务感知。它能节省高达98%的标签,并优于监督模型。
本文提出了一个统一的几何框架,证明加权InfoNCE目标可以解释为距离几何问题,从而精确刻画了有监督和弱监督对比学习方法的最优嵌入,并揭示了这些嵌入何时在几何上可实现、退化或不一致。
NERVE提出了一种网络感知的双线性分词方法,用于基于掩码自编码器的脑功能连接矩阵自监督学习,改善跨发育队列的表征学习。
本文介绍了 HEPA,这是一种用于预测时间序列中罕见关键事件的自监督架构,采用联合嵌入预测架构 (JEPA) 预训练策略。与领先的模型相比,它在多个领域均展现出卓越的性能,同时所需的标记数据和调整参数显著减少。
一个 GitHub 仓库,提供 JEPA 系列模型(I-JEPA、V-JEPA、V-JEPA 2、C-JEPA)的极简、独立 PyTorch 重新实现,供教育用途,包含教程和可视化工具。