# 监督学习中的贝叶斯充分表示
摘要
本文形式化了监督学习中贝叶斯充分表示(Bayes-sufficient representations)的概念,定义了在给定损失函数下,一个表示何时恰好保留了贝叶斯最优预测所需的信息。文章引入了贝叶斯商(Bayes quotient)作为依赖于损失函数的典范对象,并将该框架与性质激发(property elicitation)相关联,通过实验阐明了充分性、最小性与冗余保留信息之间的区别。
arXiv:2606.04045v1 公告类型:新论文
摘要:表示学习通常被描述为保留输入中与预测相关的信息。本文探讨"相关性"在固定监督决策问题中的含义。我们定义:若某预测头能利用一个表示来实现贝叶斯最优行动规则,则该表示对于联合分布和损失函数是**贝叶斯充分的**。这使得目标信息依赖于损失函数。在贝叶斯最优行动几乎必然唯一的情形下,相关对象是**贝叶斯商**,它识别出需要相同贝叶斯最优行动的输入。当一个表示细化了该商时,它是充分的;当它与该商在信息量上等价时,它是贝叶斯最小的。该框架与属性引出自然相连:0-1损失对应贝叶斯类别,平方损失对应条件均值,Brier损失对应二元预测中的条件概率,对数损失或严格正则评分规则对应预测分布。受控有限实验、学习神经瓶颈实验以及真实数据 iNaturalist 分类细化实验,共同阐明了充分性、最小性与所保留的非必要信息之间的区别。对于固定的监督问题:分布与损失函数决定贝叶斯行动,贝叶斯行动决定商,商决定贝叶斯最优预测所需的最少信息。
查看缓存全文
缓存时间: 2026/06/05 02:18
# 监督学习中的贝叶斯充分表示
来源:https://arxiv.org/html/2606.04045
Vasileios Sevetlidis,Athena 研究中心,希腊赞西 Kimmeria 校区;色雷斯民主大学,希腊赞西 Vas\. Sofias 校区;国际希腊大学,希腊塞雷斯 vasiseve@athenarc\.gr
###### 摘要
表示学习通常被描述为保留输入中与预测相关的信息。本文探讨在固定的监督决策问题中,"相关性"意味着什么。对于给定的联合分布和损失函数,若某个预测头能利用某表示实现贝叶斯最优行动规则,则该表示被定义为贝叶斯充分的。这使得目标信息具有损失依赖性。在贝叶斯行动几乎处处唯一的情形下,相关对象是贝叶斯商,它识别出需要相同贝叶斯最优行动的输入。当表示细化了该商时,它是充分的;当它与该商在信息上等价时,它是贝叶斯最小的。该框架与性质诱导自然相关:零一损失需要贝叶斯类别,平方损失需要条件均值,Brier 损失需要二元预测中的条件概率,而对数损失或严格正则评分规则则需要预测分布。受控有限实验、学习神经瓶颈实验以及真实数据 iNaturalist 分类细化实验,阐明了充分性、最小性与保留非必要信息之间的区别。对于固定的监督问题,分布和损失决定贝叶斯行动,贝叶斯行动决定商,商决定贝叶斯最优预测所需的最少信息。
*关键词*表示学习⋅\\cdot贝叶斯充分性⋅\\cdot决策理论⋅\\cdot性质诱导⋅\\cdot最小表示
## 1 引言
表示学习通常被描述为:保留输入中与预测相关的信息,同时丢弃无关变化。这一描述颇具吸引力,但留下了一个基本问题:与哪个预测问题相关?相关性并非输入分布本身的属性,而是由数据生成律和评估预测所用的损失函数共同决定的。
一个简单例子说明了这一问题。在二元分类中,两个输入的条件概率 $P(Y=1\mid X=x)$ 分别为 $0.55$ 和 $0.95$。在零一损失下,两个输入需要相同的贝叶斯最优类别决策,因此仅记录贝叶斯类别的表示对最优分类已经充分。然而,在对数损失或其他已校准的概率性损失下,这两个输入无法被识别为等价;概率本身才是需要报告的量。因此,同一条件律对于分类问题可能诱导出粗粒度的表示目标,而对于概率预测则诱导出更细粒度的目标。
本文通过贝叶斯充分表示的概念将这种损失依赖性形式化。对于固定的联合分布和监督损失,若某个预测头能利用某表示实现贝叶斯最优行动规则,则该表示是贝叶斯充分的。在贝叶斯行动几乎处处唯一的常见情形下,该定义产生了一个典范的损失依赖对象:贝叶斯商。该商识别出需要相同贝叶斯最优行动的输入。当表示细化了贝叶斯商时,它是充分的;当它与该商在信息上等价时,它是贝叶斯最小的。
由此产生的框架将两个常被混淆的概念区分开来。一个表示可能因为包含了贝叶斯最优预测所需的全部信息而是充分的,同时也可能因为还保留了损失函数不需要的信息而是非最小的。例如,在零一分类下,相关商由贝叶斯类别生成;在平方损失下,由条件均值生成;在二元 Brier 损失下,由条件概率生成;在对数损失或严格正则评分规则下,由预测分布生成。即使底层联合分布相同,这些也是不同的预测相关信息概念。
本文有三方面贡献。第一,给出监督表示贝叶斯充分性的决策理论定义,并证明其分解刻画:表示是贝叶斯充分的,当且仅当至少存在一个关于该表示可测的贝叶斯预测器。第二,在贝叶斯行动唯一的情形下,识别贝叶斯商,并将充分性和最小性刻画为 sigma 代数的包含与相等关系。同时处理集值非唯一行动的情形,其中充分性要求在表示纤维上存在公共最优行动,而非贝叶斯行动集的相等。第三,将商的视角与性质诱导相联系,表明损失通过其所诱导的条件性质来产生表示目标。
本文其余部分的组织如下。第 2 节 (https://arxiv.org/html/2606.04045#S2) 将贝叶斯充分性置于统计决策理论、经典充分性、Blackwell 比较、充分降维、性质诱导、信息瓶颈方法和探针的背景下加以定位。第 3 节 (https://arxiv.org/html/2606.04045#S3) 包含主要理论发展,是本文的核心部分:定义贝叶斯充分性,在唯一行动情形下引入贝叶斯商,区分充分性与贝叶斯最小性,并推导标准监督损失所诱导的表示目标。第 4 节 (https://arxiv.org/html/2606.04045#S4) 提供实证说明。第 4.1 节 (https://arxiv.org/html/2606.04045#S4.SS1) 研究相关商精确已知的受控合成场景,并考察学习到的神经瓶颈表示。第 4.2 节 (https://arxiv.org/html/2606.04045#S4.SS2) 给出 iNaturalist 真实数据细化实验,以物种-属-科层级结构作为商细化的结构化类比。第 5 节 (https://arxiv.org/html/2606.04045#S5) 讨论局限性与扩展,第 6 节 (https://arxiv.org/html/2606.04045#S6) 作出结论。完整的测度论表述(包括技术条件、证明、非唯一行动情形和标准损失推导)见附录 A (https://arxiv.org/html/2606.04045#A1)。
## 2 相关工作
出发点是经典统计决策理论。在 Wald–Bayes 框架中,最优性不是分布本身的属性,而是决策问题的属性:行动空间、损失函数和概率律共同决定贝叶斯行动 \(Wald, 1950 (https://arxiv.org/html/2606.04045#bib.bib1); Ferguson, 1967 (https://arxiv.org/html/2606.04045#bib.bib2); Berger, 1985 (https://arxiv.org/html/2606.04045#bib.bib3)\)。这一基本观点对表示学习至关重要。如果表示应当保留与预测相关的信息,那么"相关"一词就不能独立于损失函数来解释。在一种损失下,给定 $X$ 的 $Y$ 的相同条件律可能诱导粗粒度的最优行动,而在另一种损失下则诱导更细粒度的最优行动。任务相关信息是相对于损失的。
这种贝叶斯充分性的概念与经典统计充分性根本不同。在 Fisher–Neyman 意义下,当统计量通过分解准则(在适当控制假设下)保留样本中关于未知参数的信息时,该统计量对参数化模型是充分的 \(Fisher, 1922 (https://arxiv.org/html/2606.04045#bib.bib4); Neyman, 1935 (https://arxiv.org/html/2606.04045#bib.bib5); Lehmann and Scheffé, 1950 (https://arxiv.org/html/2606.04045#bib.bib6)\)。本文的设定并非主要关注保留关于参数或模型族的信息。联合律 $P$ 是固定的,问题在于必须保留输入的哪些信息,才能实现监督贝叶斯行动。Blackwell 充分性在决策理论精神上更为接近,因为它通过决策价值比较实验 \(Blackwell, 1951 (https://arxiv.org/html/2606.04045#bib.bib7), 1953 (https://arxiv.org/html/2606.04045#bib.bib8)\)。然而,Blackwell 序是故意对决策问题类别保持一致:如果一个实验在相关损失、先验和行动上均不劣于另一个,则称其更具信息性。本文固定单一监督决策问题并提取所诱导的表示商。这比 Blackwell 比较更窄,但旨在识别特定损失所要求的信息。
本文也与回归中的充分降维(SDR)相邻。SDR 寻求预测变量的低维摘要,通过诸如 $Y\perp X\mid B^{\top}X$ 的条件或通过条件分布或条件均值的中心子空间来保留 $X$ 和 $Y$ 之间条件关系的方面 \(Li, 1991 (https://arxiv.org/html/2606.04045#bib.bib9); Cook, 1998 (https://arxiv.org/html/2606.04045#bib.bib10); Cook and Li, 2002 (https://arxiv.org/html/2606.04045#bib.bib11); Fukumizu et al\., 2009 (https://arxiv.org/html/2606.04045#bib.bib12)\)。这些工作关注降维、子空间估计和回归结构。相比之下,本文的对象不必是线性子空间或低维欧氏坐标。贝叶斯商是一个信息对象,即由贝叶斯行动生成的 sigma 代数,或更一般地,由损失诱导的公共行动结构。SDR 寻求保留条件结构的摘要;贝叶斯充分性则询问在选定监督损失下最优行动所需的条件性质。
损失依赖目标最紧密的形式语言来自性质诱导。当期望损失在报告某性质时被唯一最小化时,该损失诱导分布的该性质。平方损失诱导均值,绝对值损失诱导中位数,分位数损失诱导分位数,Brier 型损失诱导概率,严格正则评分规则诱导预测分布 \(Savage, 1971 (https://arxiv.org/html/2606.04045#bib.bib13); Gneiting and Raftery, 2007 (https://arxiv.org/html/2606.04045#bib.bib14); Lambert et al\., 2008 (https://arxiv.org/html/2606.04045#bib.bib15); Frongillo and Kash, 2015 (https://arxiv.org/html/2606.04045#bib.bib16)\)。在监督学习中,同样的陈述在条件上成立:损失决定了在每个输入处最优报告 $P(Y\in\cdot\mid X)$ 的哪个性质。本文在表示层面使用这一观察。一旦损失诱导了条件性质,贝叶斯商就是由该性质生成的输入级商。贝叶斯充分表示正是那些能够恢复所诱导条件性质,或至少能够恢复最优行动的表示。
这一视角阐明了表示学习中的一个反复出现的主题。信息瓶颈等方法将表示学习框架化为在压缩输入信息的同时保留关于相关变量的信息 \(Tishby et al\., 1999 (https://arxiv.org/html/2606.04045#bib.bib17)\)。后续工作将最小性、不变性、噪声去除和深层表示联系起来 \(Tishby and Zaslavsky, 2015 (https://arxiv.org/html/2606.04045#bib.bib18); Achille and Soatto, 2018a (https://arxiv.org/html/2606.04045#bib.bib19), b (https://arxiv.org/html/2606.04045#bib.bib20)\)。这些方法激励了这样一个想法:好的表示应保留任务相关信息并丢弃噪声变化。本文将监督相关性的目标明确化:对于固定的联合律和损失,贝叶斯信息是决策问题所要求的那部分输入信息。一个表示可以包含这些信息,同时也携带贝叶斯行动未使用的额外信息。
实证方法也应在同样的区分下理解。探针研究询问某变量是否可以通过一类选定的探针(通常是线性探针)从学习到的表示中恢复 \(Alain and Bengio, 2017 (https://arxiv.org/html/2606.04045#bib.bib21); Hewitt and Liang, 2019 (https://arxiv.org/html/2606.04045#bib.bib22); Belinkov, 2022 (https://arxiv.org/html/2606.04045#bib.bib23)\)。此类探针是有价值的诊断工具,但它们本身并不能建立总体 sigma 代数包含关系。探针成功表明目标变量在所用样本和优化过程下对该探针类别是可访问的;探针失败可能表明信息缺失、探针容量不足、有限样本限制或优化失败。出于这一原因,本文实验将探针作为学习表示的经验可恢复性测试,而非充分性的定义。总体贝叶斯充分性是一个分解性质;探针是学习表示的操作性诊断工具。
最后,本文对近期表示层面的不可识别性和不变性视角进行了补充 \(Sevetlidis, 2026 (https://arxiv.org/html/2606.04045#bib.bib33); Sevetlidis and Pavlidis, 2026 (https://arxiv.org/html/2606.04045#bib.bib34)\)。特别地,Sevetlidis \(2026 (https://arxiv.org/html/2606.04045#bib.bib33)\) 强调预测器行为本身不必决定表示层面的属性,因为无用坐标可以在不改变复合预测器的情况下被添加或变换。本文提出的正向决策理论问题是:在表示可能保留的所有信息中,特定监督损失需要哪些信息?答案通过贝叶斯商给出。纤维视角解释了为何表示属性无法仅从预测器行为中推断;贝叶斯充分性识别了最优监督行动所必须存在的损失依赖信息。
## 3 理论
本节刻画表示为支持固定监督决策问题的贝叶斯最优预测所必须保留的信息。$(X,Y)$ 的联合律和损失决定贝叶斯行动,从而决定最优预测所需的损失依赖信息。将预测器写为 $c\circ h$,当某个头 $c$ 能利用表示 $h$ 实现贝叶斯最优规则时,$h$ 是贝叶斯充分的 Sevetlidis \(2026 (https://arxiv.org/html/2606.04045#bib.bib33)\)。当贝叶斯行动几乎处处唯一时,该信息由贝叶斯商捕获,贝叶斯商识别出需要相同贝叶斯最优行动的输入。在此情形下,充分性意味着对商的细化,而贝叶斯最小性意味着与商的信息等价。附录 A (https://arxiv.org/html/2606.04045#A1) 给出完整的测度论表述,包括非唯一行动情形。
### 3\.1 贝叶斯充分性
设 $(X,Y)\sim P$ 定义在标准 Borel 空间 $\mathcal{X}\times\mathcal{Y}$ 上,$\ell:\mathsf{A}\times\mathcal{Y}\to[0,\infty]$ 是具有行动空间 $\mathsf{A}$ 的可测损失函数。预测器是可测映射 $f:\mathcal{X}\to\mathsf{A}$,表示是可测映射 $h:\mathcal{X}\to\mathcal{H}$。记 $H=h(X)$。表示上的头是可测映射 $c:\mathcal{H}\to\mathsf{A}$,给出预测器 $c\circ h$。
设
$$\mu_x(\cdot):=P(Y\in\cdot\mid X=x)$$相似文章
稳定(因而兼容)的表示即所需
介绍了通过d-Simplex固定分类器学习的稳定表示,以确保在顺序微调期间模型的兼容性,从而实现无需重新处理的连续检索服务。结合交叉熵损失和对比损失来捕获高阶依赖性。
损失不足:对比表示学习中的采样条件与归纳偏置
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
解释是否必要且充分?调优LLM用于可解释的虚假信息检测
本文提出了一种专门用于可解释虚假信息检测的LLM微调流水线,并介绍了一种数据合成方法LonsRex,用于生成必要且充分的解释,解决了仅基于标签正确性进行简单过滤的局限性。
外部观察者的必要性:形式化充分性差距——混合可识别性与序列模型中上下文基础的数学扩展
本文形式化了下个token预测中的充分性差距,证明即使理想的序列模型在文本前缀不足以统计潜在情况时,也可能变得过于自信。它提出了一种外部观察者机制来减少但无法消除这一差距。
面向视觉与语言模型的经验贝叶斯共形预测
本文介绍了一种经验贝叶斯共形预测框架,该框架使用 r 值将评分变异性纳入非一致性得分中,从而提升排序稳定性并缩减集合大小,同时保持对视觉与语言模型的覆盖。