标签
本文提出了用于体积显微镜数据的3D Masked Autoencoders,并展示了在下游单细胞任务中,3D建模优于2D最大投影和基于切片的变体,而通过与蛋白质语言模型的跨模态对齐进一步提升了性能。
本文采用逐层探测的方法,研究wav2vec 2.0和Whisper如何编码非裔美国人英语中的辅音丛简化现象,发现这两个模型均能区分简化形式和规范形式,并保留了底层塞音的线索。
微软的NextLat论文提出了一种自监督训练方法,让Transformer预测其下一个隐藏状态而非仅仅下一个token,从而形成更紧凑的世界模型,更好地进行规划和推理,并且生成速度提升高达3.3倍。
微软的NextLat引入了一种训练目标,它奖励信念状态表示,而不是仅仅依赖于下一个词预测,从而推动模型向紧凑的世界模型发展,以实现更好的泛化。
UniverSat 引入了一种用于Vision Transformers的Universal Patch Encoder,该编码器可以在不同地球观测数据类型上实现鲁棒的、传感器无关的空间特征提取,在分类和分割基准测试上取得了优秀结果。
PragReST 是一个自监督框架,通过生成反事实推理轨迹并利用监督微调和强化学习训练模型,提升大语言模型的语用推理能力,在语用基准测试上取得了显著提升,且无需人工标注数据。
本文提出了一种用于停车位占用识别的自监督迁移学习方法,采用包含 SimCLR 和 ResNet-50 的两阶段训练策略,在仅需极少标注数据的情况下实现了高准确率(最高达 97.8%)。
本文提出自适应分箱(Adaptive Binning),一种针对表格自监督学习的、与学习过程耦合的特征级粗到细课程,能够自适应地离散化特征,在医学数据集上提升表示质量,并建立了统一的基准测试。
一位机器人研究员将当前的机器人研究方法比作2023年的语言模型格局,认为表示预测(JEPA)是最具可扩展性的方法,因为它可以利用像YouTube这样无需动作标注的视频数据,而其他方法需要动作标注的数据。
微软研究院提出Next-Latent Prediction (NextLat)方法,一种自监督学习方法,训练变换器预测自身下一个潜在状态,从而形成用于推理和规划的紧凑世界模型,并通过自推测解码实现高达3.3倍的推理加速。
本文研究wav2vec2.0架构在汉语普通话中是否表现出对音调上下文的感知补偿,发现与人类听众相比,自监督模型中的证据有限,并表明监督微调可能是实现此类音系抽象所必需的。
引入了视觉时域差分(TDV),这是一种全新的表示学习范式,仅依赖于因果关系,无需数据增强、掩码或裁剪,并在密集空间任务上达到了与DINO和iBOT等最先进方法相当的性能。
介绍了时间差视觉表征学习范式(Temporal Difference in Vision, TDV),这是一种新颖的视觉表征学习范式,无需数据增强、掩码、裁剪或重建即可学习有用的表征,并在密集空间任务上达到与最先进方法相当的性能。
RECTOR 是一个自监督框架,从 EEG/sEEG 信号中学习联合的区域-通道-时间表征,用于情感和认知状态分类,在情绪识别和任务参与度基准测试中取得了最先进的结果。
ProtoX-AD is a prototype-based self-explainable framework for self-supervised time series anomaly detection that provides interpretable explanations for detected anomalies by learning transformation-aware prototypes, achieving performance comparable to black-box methods while offering semantic anomaly characterization.
本文介绍了视觉时间差分法(TDV),这是一种用于视频的自监督学习方法,仅依赖于过去导致未来的因果假设,避免了强归纳偏差,同时在密集空间任务上达到最新技术水平。
ViT-Up提出了一种用于视觉Transformer的任务无关特征上采样器,在任意连续图像坐标上预测特征,从而能够生成任意分辨率的密集特征图,并提升了密集预测和语义对应基准的性能。它优于先前的最先进上采样器,在Cityscapes上提升了+2.07 mIoU,在SPair-71k上提升了+4.17 [email protected]。
UR-BERT提出了一种基于罗马化转录的文本编码器,用于大规模多语言TTS,通过使用通用罗马化和语音令牌预测目标,扩展到495种语言,以增强语音对齐和泛化到未见过的语言。
研究自监督语音识别模型如何跨层编码说话人群体信息(性别、年龄、方言、民族、母语者状态),以及针对ASR或说话人识别等任务的微调如何影响这种编码。
一份精心整理的关于Joint Embedding Predictive Architectures(JEPA)的论文、模型、代码、数据集和学习资源列表,这是Yann LeCun提出的用于世界模型的自监督方法。