有限理性、对冲与泛化

arXiv cs.LG 论文

摘要

本文通过有限理性决策理论的视角研究学习中的泛化问题,其中学习者的响应规律在训练损失和样本依赖性之间产生权衡。作者表明这种权衡由 f-散度正则化器控制,并且泛化可以从学习者的对冲行为中得到验证。

arXiv:2605.15340v1 Announce Type: new 摘要:学习者不仅拟合数据,还决定了训练样本对其输出的影响程度以及可以规避多少失真。我们将这种关系视为一个有限理性决策问题,其原始对象是从样本到输出的诱导信道。学习者的响应规律决定了该信道中哪些变化是廉价或昂贵的,因此既产生了训练损失与样本依赖性之间的下权衡曲线,也产生了匹配的上证书曲线。当响应规律由 $f$-散度正则化器表示时,这些曲线存在于正则化器自身的信息几何中,其中KL散度是香农互信息的一个特例。我们展示了如何通过观察对缩放损失和局部损失扰动的响应,从黑箱行为中恢复对冲以及这两条曲线。在学习中,总体损失等于经验损失加上由特定训练样本引起的失真。当恢复的对冲覆盖了该失真时,它提供了一个实用证书。因此,泛化被视为学习者自身响应规律的一个可测试的对冲属性。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:40

# 有限理性、对冲与泛化 来源:https://arxiv.org/html/2605.15340 ###### 摘要 学习者不仅仅拟合数据;它还决定了训练样本在多大程度上塑造其输出,以及它能对冲多少失真。我们将其研究为一个有界理性决策问题,其原始对象是从样本到输出的诱导通道。学习者的响应法则决定了该通道中的哪些变化是廉价或昂贵的,因此同时诱导出训练损失与样本依赖性之间的下界权衡曲线和匹配的上界认证曲线。当响应法则由 f-散度正则化器表示时,这些曲线存在于正则化器固有的信息几何中,而 KL 散度则对应于香农互信息这个特例。我们展示了如何通过观察对缩放损失和局部损失扰动的响应,从黑箱行为中恢复对冲以及这两条曲线。在学习中,总体损失等于经验损失加上特定训练样本所诱导的失真。当恢复出的对冲覆盖了该失真时,它就提供了一个实用的认证。因此,泛化被视为学习者自身响应法则的一个可测试的对冲属性。 ## 1 引言 过拟合可以视为暴露于训练样本诱导的失真。设 S 表示训练样本,A 表示学习者的输出。拟合样本使得 S 能够影响 A。更强的依赖性可以改善经验拟合,但也增加了暴露于样本特有且未必在总体层面持续存在的结构的风险。我们的问题是,学习者自身的响应法则是否控制了这种暴露。 现有的泛化分析研究相同的通道 P(A|S)。PAC-贝叶斯理论通过诱导输出分布与分析师提供的先验之间的散度来界定泛化差距[44 (https://arxiv.org/html/2605.15340#bib.bib108),14 (https://arxiv.org/html/2605.15340#bib.bib110)]。稳定性分析通过输出对单个训练点的敏感度来控制它。信息论方法通过样本与输出之间的互信息 I(S;A) 来界定它[67 (https://arxiv.org/html/2605.15340#bib.bib117),63 (https://arxiv.org/html/2605.15340#bib.bib119),31 (https://arxiv.org/html/2605.15340#bib.bib121)]。每一种方法都在给定通道的情况下询问泛化差距可能有多大。而通道本身对于这个差距意味着什么,在没有单独提供的参考的情况下,则是一个不同的问题。 我们利用决策制定的有界理性观点,将学习者的成本结构与其原生(或隐式)正则化器等同起来。在有界理性中,观察不仅选择损失最小化的行动;它还改变了行动法则,使其偏离其边际分布,而这种偏离带有成本[50 (https://arxiv.org/html/2605.15340#bib.bib1),48 (https://arxiv.org/html/2605.15340#bib.bib3)]。操作参数 β 设置了损失与该成本之间的兑换率:较大的 β 使样本依赖性更便宜,而较小的 β 使其更昂贵。对于固定的正则化器,改变 β 会在同一条权衡曲线上选择不同的操作点。关键是,没有哪个 β 值是特殊的:不同的值对应不同的对冲态度。 在本文中,我们研究偏离成本由 f-散度正则化器表示的情况[46 (https://arxiv.org/html/2605.15340#bib.bib23),1 (https://arxiv.org/html/2605.15340#bib.bib20),16 (https://arxiv.org/html/2605.15340#bib.bib21),64 (https://arxiv.org/html/2605.15340#bib.bib32)]。KL 散度是一个特例,其原生信息坐标是香农互信息[59 (https://arxiv.org/html/2605.15340#bib.bib40),8 (https://arxiv.org/html/2605.15340#bib.bib52)]。同一个正则化器生成一个原生信息坐标和两条配对曲线:下界前沿和认证前沿(图1 (https://arxiv.org/html/2605.15340#S1.F1))。下界前沿给出了在给定原生信息使用水平下可获得的最小损失,它源自损失与信息之间的有界理性权衡。认证前沿给出了由同一正则化器诱导的对冲所保护的损失水平,它源自信息成本作为损失对抗扰动的对偶解释[59 (https://arxiv.org/html/2605.15340#bib.bib40),8 (https://arxiv.org/html/2605.15340#bib.bib52),6 (https://arxiv.org/html/2605.15340#bib.bib45),51 (https://arxiv.org/html/2605.15340#bib.bib4)]。综合来看,这些曲线刻画了决策者的隐式对冲态度:它愿意用多少可获得的损失来换取对正则化器原生扰动的保护。 同样的构造适用于学习,因为学习可以被视为一个有界理性决策问题。在这种观点下,经验损失与总体损失之间的差距是学习者目标的一个对抗性扰动。对冲识别了学习者诱导的对抗类别;当扰动被该类别覆盖时,总体损失就得到了控制。 参见图例 图 1:从行为中恢复学习者的原生前沿和对冲。三个学习者解决相同的分类任务,每个都由不同的固有正则化器控制:A: KL,B: Pearson χ²,C: 平方 Hellinger。对于每个学习者,黑色实线是损失前沿:在每个原生信息使用水平下可获得的最佳损失。黑色虚线是认证前沿:由学习者自身对冲所暗示的受保护损失水平。灰色圆圈和方块显示了使用第 5 节 (https://arxiv.org/html/2605.15340#S5) 中的干预措施从黑箱样本中恢复的相同两条曲线。误差条显示了 10–90 百分位的自举区间。一致性显示了本文的核心主张:响应法则编码了正则化器,因此允许从行为中恢复原生信息坐标、损失前沿和对冲认证。 由于前沿是学习者响应法则的隐式属性,它们可以通过控制实验从行为中逆向工程出来,如图1 (https://arxiv.org/html/2605.15340#S1.F1) 所示。改变任务和操作条件使我们能够在学习者响应探索的范围内估计原生操作曲线及其匹配的认证曲线,类似于[52 (https://arxiv.org/html/2605.15340#bib.bib6),13 (https://arxiv.org/html/2605.15340#bib.bib15)]。由于不同的正则化器诱导不同的信息几何,这些曲线首先在响应法则选择的原生坐标系中恢复。为了进行跨正则化器比较,恢复后的相同通道随后可以投影到一个共同的信息-损失平面,例如香农互信息平面。 本文组织如下。第 2 节 (https://arxiv.org/html/2605.15340#S2) 用一般正则化器及其原生信息坐标形式化了有界理性行为。第 3 节 (https://arxiv.org/html/2605.15340#S3) 使用对偶性获得内生对冲和匹配的认证前沿。第 4 节 (https://arxiv.org/html/2605.15340#S4) 描述了由此产生的下界前沿和认证前沿,并解释了如何通过将决策者的通道投影到一个共同的信息-损失平面进行比较。第 5 节 (https://arxiv.org/html/2605.15340#S5) 展示了如何从黑箱行为中恢复下界和认证曲线。第 6 节 (https://arxiv.org/html/2605.15340#S6) 然后将相同的构造应用于学习。 ## 2 有界理性 我们考虑一个决策问题,其中随机变量 S 从分布 P(S) 中抽取,由决策者观察,然后决策者根据 P(A|S) 产生行动随机变量 A。对于实现 S=s 和 A=a,产生的损失为 ℓ(s,a)。有界理性的前提是,决策者并非仅通过最小化损失来选择通道 P(A|S)。相反,它在损失与允许刺激重塑行动分布的成本之间进行权衡。 更精确地说,在信息论有界理性中,目标是自由能泛函: F_β[P(A|S)] := ∫ P(s) [ ∫ P(a|s) ℓ(s,a) da ⏟ 期望损失 + (1/β) D(P(a|s) ∥ P(a)) ⏟ 正则化 ] ds, (1) 其中 P(a) = ∫ P(a|s) P(s) ds。 (2) 这里 β > 0 将信息成本转换为损失单位,而 D(Q∥P) 是 KL 散度。将期望损失记为 L := ∫∫ P(s,a) ℓ(s,a) da ds。 (3) 因此,每个操作水平 β 的选择都会在期望损失与依赖于刺激的信息成本之间产生不同的权衡,且没有哪个 β 是特权的[50 (https://arxiv.org/html/2605.15340#bib.bib1),10 (https://arxiv.org/html/2605.15340#bib.bib2),48 (https://arxiv.org/html/2605.15340#bib.bib3)]。由此产生的最优值是选择的确定性等价价值,即总结了整个有界理性决策问题价值的单一损失值。 我们现在将正则化推广到 f-散度[46 (https://arxiv.org/html/2605.15340#bib.bib23),1 (https://arxiv.org/html/2605.15340#bib.bib20),16 (https://arxiv.org/html/2605.15340#bib.bib21),64 (https://arxiv.org/html/2605.15340#bib.bib32)]。这个选择是为了数学上的便利,尽管我们期望结果能推广到更广泛的类别。固定一个凸的下半连续函数 f: [0,∞) → (-∞,∞],且 f(1)=0。如果 Q(A) 和 P(A) 是行动空间上的分布,则定义 f-散度: D_f(Q∥P) := ∫ P(a) f( Q(a)/P(a) ) da, (4) 通常的约定是,当 Q(a)>0 时比率 Q(a)/P(a) 不可接受时,该值为 +∞。这个类别在保持凸性和对偶结构的同时,允许信息惩罚的几何形状在不同模型之间变化。以下章节中仅使用 Fenchel 对偶的陈述可以进一步推广到一般的真凸正则化器[56 (https://arxiv.org/html/2605.15340#bib.bib95),7 (https://arxiv.org/html/2605.15340#bib.bib97),38 (https://arxiv.org/html/2605.15340#bib.bib26)]。 此外,我们为正则化器固定规范代表。每个 f-散度都有一个等价类,通过 f(x) ↦ f(x)+c(x-1) 得到相同的散度[1 (https://arxiv.org/html/2605.15340#bib.bib20),16 (https://arxiv.org/html/2605.15340#bib.bib21),38 (https://arxiv.org/html/2605.15340#bib.bib26)]。因此,只要 f 在 1 处可微,我们选择满足 f'(1)=0 的代表,这固定了一个加性标度,同时保留了散度几何。根据这个约定,KL 散度由 f(x)=x log x - x + 1 得到。其他例子包括 Pearson χ² 散度,由 f(x)=(x-1)² 得到,以及平方 Hellinger 散度,由 f(x)=(√x -1)² 得到。在下文中,正则化器仅限于此类。 将 f-散度对刺激求平均会产生相应的原生互信息。事实上,定义 S 和 A 之间的 f-互信息为: I_f(S;A) := D_f(P(S,A) ∥ P(S)P(A)) = ∫ P(s) D_f(P(A|s) ∥ P(A)) ds, (5) 其中 P(s,a)=P(s)P(a|s)[17 (https://arxiv.org/html/2605.15340#bib.bib22),69 (https://arxiv.org/html/2605.15340#bib.bib31),18 (https://arxiv.org/html/2605.15340#bib.bib37),57 (https://arxiv.org/html/2605.15340#bib.bib39)]。这是由正则化器 f 选择的原生信息坐标。只有在 KL 情况下,这个原生信息坐标才简化为香农互信息[59 (https://arxiv.org/html/2605.15340#bib.bib40),8 (https://arxiv.org/html/2605.15340#bib.bib52)]。在这个意义上,正则化器的选择决定了什么算作刺激与行动之间的依赖性,从而固定了拟合的原生几何(图 2 (https://arxiv.org/html/2605.15340#S2.F2)),并且,正如我们将在下一节看到的,也固定了对冲(图 3 (https://arxiv.org/html/2605.15340#S2.F3))。附录 B (https://arxiv.org/html/2605.15340#A2) 列出了额外的正则化器。 参见图例 图 2:三种正则化器下有界理性行为的几何。A-C:三个行动的概率单纯形,显示了先验行动分布 P(a) 以及 KL、Pearson χ² 和平方 Hellinger 的损失和正则化器几何。灰色虚线是损失的等高线;黑色实线是相应散度的等高线。D-F:在操作水平 β 下将损失与正则化器结合后的相同三个单纯形。黑色实线是有界理性目标的等高线。黑点标记先验 P(a),红点标记优化器 P(a|s),红色曲线是 β 从 0 变化到该值时绘制的有界理性操作路径。所有面板中的损失相同,但正则化器改变了围绕 P(a) 的局部几何和向有界理性最优的位移。 参见图例 图 3:有限分类模型中的有界理性行为。A:由 4×4 损失矩阵 ℓ(s,a) 定义的分类选择任务。B:在匹配信息水平 I(S;A)≈0.5 下,KL、Pearson χ² 和平方 Hellinger 正则化的诱导边际行动分布 P(a)。C:不同操作点下的 KL 通道 P(a|s);增加操作水平将质量更强烈地集中在低损失行动上。D:在相同任务和匹配信息下,KL、Pearson χ² 和平方 Hellinger 诱导的通道比较。决策者并未坍缩到逐点损失最小化器。相反,它在行动上随机化,并且随机化的形式取决于正则化器。 ## 3 对冲 有界理性行为问题允许一个等价的对抗性解释[51 (https://arxiv.org/html/2605.15340#bib.bib4)]。通过 Fenchel 对偶,目标可以重述为一个对抗内生对手的最小最大博弈。更具体地说,正则化器编码了一种对冲策略:它固定了可容许对抗扰动的几何,而 β 设置了它们的有效规模。较小的 β 值对应较大的扰动,因此对应更强的对冲。我们将分两步发展这个想法。 首先,固定一个刺激 S=s 和一个先验 P(A)。通过 Fenchel 对偶[25 (https://arxiv.org/html/2605.15340#bib.bib94),56 (https://arxiv.org/html/2605.15340#bib.bib95),7 (https://arxiv.org/html/2605.15340#bib.bib97)],正则化器可以表示为: D_f(P(A|s) ∥ P(A)) = sup_C { β ∫ P(a|s) C(a) da - ∫ P(a) f⋆(β C(a)) da }, (6) 其中上确界取遍所有使积分有定义的损失函数 C。

相似文章

通过改变理性度来缓解RLHF中的认知偏差

arXiv cs.AI

本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。

物理信息机器学习泛化性的PAC-Bayesian视角

arXiv cs.LG

本文为物理信息机器学习开发了一种PAC-Bayesian框架,为无界损失提供了高概率泛化保证。它提出了一种多任务视角,联合处理数据保真度、偏微分方程残差和边界条件,并引入了一种自界限学习算法。

以人为中心的学习机制:熵正则化表示学习的动态框架

arXiv cs.LG

本文提出了以人为中心的学习机制(HCLM),这是一个用于研究开放和受控学习系统的动态信息理论框架。它通过有效信息力形式化了熵正则化,推导了收敛性和泛化结果,并提供了对尺度律行为的条件性解释。