self-supervised-learning

#self-supervised-learning

CF-JEPA：利用不对称编码器进行无掩码前向预测的时间序列表示学习

arXiv cs.LG ↗ · 2026-06-08 缓存

提出CF-JEPA，一种无掩码的自监督学习框架，用于时间序列表示学习。该方法通过从随机裁剪中进行多视野前向预测，并利用在线编码器与指数移动平均目标编码器之间的不对称性，在分类、预测和异常检测任务上提升了性能。

0 人收藏 0 人点赞

#self-supervised-learning

预测与重建：自监督语言表示学习的联合目标

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了一种混合预训练目标，结合了JEPA潜在空间预测和MLM重建，用于语言模型，显示出改进的嵌入均匀性和语义-词汇平衡。

0 人收藏 0 人点赞

#self-supervised-learning

损失不足：对比表示学习中的采样条件与归纳偏置

arXiv cs.LG ↗ · 2026-06-04 缓存

本文发展了一个测度论框架，分析对比学习何时恢复有意义的潜在几何结构，引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明，采样多样性与架构归纳偏置在对比表示学习中存在关键交互。

0 人收藏 0 人点赞

#self-supervised-learning

# MIT林肯实验室提出"原理驱动基础模型"：无需微调即可跨域泛化 MIT林肯实验室的研究人员提出了一种名为**"原理驱动基础模型"（principle-driven foundation models）**的新范式。与传统方法不同，该范式将信号理论物理原理（傅里叶分解、能量守恒、对称性）直接编码到模型中，而非依靠从大量配对数据集中学习统计相关性。 ## 核心思路传统基础模型的训练范式通常需要： - 海量标注数据 - 跨域配对样本 - 针对下游任务的微调而该研究另辟蹊径——**仅使用RF（射频）数据进行训练**，并将傅里叶分解、能量守恒、对称性等物理原理内嵌于模型架构本身，使模型能够捕捉信号在本质层面的通用特征，而非特定域的统计规律。 ## 关键结果该模型的冻结编码器（frozen encoder）仅有 **199万参数**，却在以下条件下取得了令人瞩目的成绩： - **跨越15项多样化任务**，涵盖音频、图像、文本和视频四大模态 - **无需对目标域进行任何微调** - **平均准确率达到77.7%** ## 为何值得关注 | 特性 | 传统基础模型 | 原理驱动基础模型 | |------|------------|----------------| | 训练数据来源 | 多模态大规模配对数据 | 仅RF数据 | | 参数规模 | 通常数十亿级 | 仅199万 | | 跨域泛化 | 依赖微调 | 零样本迁移 | | 泛化依据 | 统计相关性 | 物理原理 | ## 深层意义这项研究表明，**物理原理本身可以作为一种强大的归纳偏置（inductive bias）**，使模型在极低参数量和数据量的条件下实现跨模态泛化。这对于数据稀缺、计算资源受限的应用场景尤为重要，同时也为"可解释AI"提供了一条新路径——模型的泛化能力来源于可解释的物理规律，而非黑箱式的统计拟合。该工作挑战了"规模即能力"的主流叙事，暗示在某些场景下，**结构化的物理先验知识可能比堆砌数据和参数更为高效**。

0 人收藏 0 人点赞

#self-supervised-learning