实例表示学习中的损失函数 [R]
摘要
讨论实例表示学习中的损失函数,重点介绍使用 NCE 来近似计算不可行的 MLE 目标。
在 Wu 等人中,由于数据集中图像数量庞大,MLE 目标在计算上不可行。非参数 Softmax 负对数似然 当 n 很大时,(2) 中的分母难以计算。因此,他们使用了 NCE(噪声对比估计)。NCE 目标 本质上,他们用更容易计算的 (7) 中的损失来近似 (3) 中难以计算的损失。然而,我们最终还是在 (8) 中估计了分母。为什么不直接用 (8) 来近似 (2) 中的分母呢?我问了 Claude 这个问题,它说这会产生有偏估计,但我并不太理解。我也有点困惑,原始 NCE 公式是作为估计密度的方法,而这里的使用方式之间有何联系;我们这样做是因为 NCE 损失更容易计算,并且随着 m(噪声样本数量)的增加,NCE 损失的梯度和 NLL 损失的梯度会趋于一致吗?
相似文章
损失不足:对比表示学习中的采样条件与归纳偏置
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
当Softmax在顶部失败时:InfoNCE的极值校正
该论文指出了基于softmax的InfoNCE损失与现代对比学习中的归一化嵌入设置之间的不一致性。它提出了WEINCE,一种简单的修改,利用极值理论将softmax logits与端点短缺校正相结合,在视觉基准测试中取得了持续的改进。
PromptNCE: 仅使用大语言模型和对比估计提示的点互信息预测
本文介绍了PromptNCE,一种使用大语言模型和对比提示来零样本估计点互信息的方法,在三个数据集上实现了与人类标注真实值的高度相关性。
# 监督学习中的贝叶斯充分表示
本文形式化了监督学习中贝叶斯充分表示(Bayes-sufficient representations)的概念,定义了在给定损失函数下,一个表示何时恰好保留了贝叶斯最优预测所需的信息。文章引入了贝叶斯商(Bayes quotient)作为依赖于损失函数的典范对象,并将该框架与性质激发(property elicitation)相关联,通过实验阐明了充分性、最小性与冗余保留信息之间的区别。
加权对比学习的统一几何框架
本文提出了一个统一的几何框架,证明加权InfoNCE目标可以解释为距离几何问题,从而精确刻画了有监督和弱监督对比学习方法的最优嵌入,并揭示了这些嵌入何时在几何上可实现、退化或不一致。