标签
本文推导了在高斯潜变量模型下的草图线性对比学习的缩放定律,分析了风险如何分解为近似项、优化项和统计项,并为对比学习中平衡模型规模、数据和计算提供了理论指导。
本文介绍了 BitEmbed,一个用于基于 LLM 的文本嵌入的极低位宽框架,它将预训练的 LLM 骨干转换为具有三值权重和量化激活的 BitNet 风格编码器。该框架在显著降低编码和存储成本的同时,实现了与全精度模型相当的性能。
本文介绍了三个数据集(Hell-Char、PaLit-Char、Med-Char),用于古希腊字母形态的历时表征学习,并提出了一种基于相似性加权的有监督对比损失函数,结合空缺驱动增强方法,以鲁棒地学习跨越数百年手写变化的字符嵌入。
本文介绍了MELD数据集,用于评估文本嵌入模型是否能够捕捉不同术语之间的数学等价性,并发现当前模型无法做到。本文提出了一种对比学习方法,用于对齐非正式和正式的数学表述,从而在非正式-正式检索任务以及自然语言任务上均取得改进。
V-Zero 是一种新颖的无标签框架,用于细粒度视觉推理,它利用对比证据门控和在线策略蒸馏,无需标注答案标签即可提升性能,且训练速度远超传统方法。
本文介绍了REVEAL++,一种用于视觉-语言对比学习的可微分表型分组方法,应用于视网膜眼底图像和临床风险叙述,以预测阿尔茨海默病风险,其性能优于离散分组基线方法。
本文介绍CADE,一个用于时间序列问答的框架,它直接将每个时间步映射到LLM嵌入空间,并使用单向监督对比损失将时间序列表示与冻结的文本锚点对齐,在Time-MQA基准测试上超越了现有基线。
本文提出ImpSH,一种基于三元组的隐含仇恨言论分类框架,该框架将帖子与隐含语句对齐,并使用上下文有界半硬负样本挖掘来提高跨数据集的泛化能力。
提出TMR-GGNN,一种用于信用卡欺诈检测的时间感知多关系图神经网络,通过对比学习和焦点损失处理不平衡数据和不断演变的欺诈模式。
本文提出了一种利用干预对比学习的后训练优化方法,将语音基础模型的表示解耦为独立的内容和说话人子空间。该方法在域外说话人验证任务上表现出更优性能,并提供了成功分离的证据。
MoCo-AIS 是一个统一的对比学习框架,用于计算船只轨迹的相似度,并在大规模AIS数据集上进行了评估。
Selective Synergistic Learning (SSync) 通过伪标签和传递合并选择性地提取可靠线索,从而改进视频目标中心学习,避免了不加区分的密集对齐带来的错误传播。
SkillCAT是一个无需训练的LLM智能体技能自我进化框架,通过三个阶段解决单轨迹偏差、未经验证的合并和全语料库加载等问题:对比因果提取、评估增强进化和拓扑感知任务执行,在基准测试上实现高达40.40%的提升。
本文提出了一种用于分子图变换器的概率对比预训练框架,以改善药物发现中的多任务ADME性质预测,在三个基准上取得了显著提升。
本文介绍了GLACIER,一种多模态学生-教师基础模型,它整合了分子图、SMILES字符串和物理化学描述符,以高效预测分子性质。它利用Finsler几何感知融合以及来自更大教师模型(MiniMol、MolFormer)的知识蒸馏,以轻量级架构实现高性能。
OSMGraphCLIP是一种模型,它使用基于图的编码器和与球谐位置编码器的对比对齐,从OpenStreetMap数据中学习全局位置嵌入。该模型在多种地理空间任务中表现出色,通常能够达到甚至超越基于卫星的方法。
提出了一种POI感知的对比训练框架,利用LLM生成的近失假设来增强ASR在代码切换区域的鲁棒性,在两个基准测试上实现了一致的错误率降低。
提出了MSAIC-Net,一种多尺度注意力增强的卷积网络,用于从心电图信号中检测心肌基质异常,采用不平衡感知对比学习和逐导联置换重要性以提高模型可解释性。
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
本文介绍了KODA(Kernel Optimization for Discrepancy Analysis,差异分析核优化),一种基于核的框架,用于比较和对齐视觉-语言模型表示,通过识别在CLIP、SigLIP和BLIP等模型中聚类方式不同的样本子集。该方法使用对比嵌入聚类和随机低维近似,能够扩展到大型数据集,同时提供表示之间可解释的结构差异。