黎曼原型分析:变形星分布上的可解释非线性数据分析
摘要
本文介绍了一种利用数据驱动拉回几何的黎曼原型分析,将可解释性与非线性表达能力相结合,提出了黎曼原型映射(RAM),并在合成数据和MNIST上展示了其有效性。
arXiv:2605.24113v1 Announce Type: new
摘要:经典的原型分析因其可解释性而备受青睐,但其线性几何在处理具有强非线性结构的数据时可能限制性能;同时,现有的神经扩展在提高灵活性的同时,往往削弱了原型和插值的几何意义。在这项工作中,我们开发了一种基于数据驱动拉回几何的黎曼原型分析,用于实值数据,旨在结合经典原型分析的可解释性和现代非线性模型的表达能力。我们引入了一类变形星分布及其相关的拉回黎曼几何,以提供对所得流形映射的统计解释,将黎曼原型映射(RAM)定义为投影到原型测地凸组合流形上的映射,并提出了一种基于凸松弛后接非凸优化的实际优化方案。我们进一步提出了一种学习方案,可以从数据中得到合理的(尽管通常次优)变形星分布。在合成示例和MNIST上的实验表明,所提出的框架能生成有意义的测地线、有用的去噪投影以及几何感知分类,同时阐明了当前优化的局限性所在。
查看缓存全文
缓存时间: 2026/05/26 09:01
# 变形星形分布上的可解释非线性数据分析 **来源:** https://arxiv.org/html/2605.24113 **Willem Diepeveen** 数学系 加利福尼亚大学洛杉矶分校 洛杉矶,CA 90095, 美国 [email protected] **&** **Deanna Needell** 数学系 加利福尼亚大学洛杉矶分校 洛杉矶,CA 90095, 美国 [email protected] ###### 摘要 经典原型分析因其可解释性而颇具吸引力,但其线性几何在处理具有强非线性结构的数据时可能性能受限;与此同时,现有的神经扩展方法在提升灵活性的同时,往往削弱了原型和插值的几何意义。在这项工作中,我们针对实值数据,基于数据驱动的拉回几何开发了一种黎曼版本的原型分析,旨在结合经典原型分析的可解释性与现代非线性模型的表达能力。我们引入了一类变形星形分布及其相关的拉回黎曼几何,为由此产生的流形映射提供了统计解释,将黎曼原型映射(RAM)定义为到原型测地凸组合流形上的投影,并提出了一种基于凸松弛后接非凸细化的实用优化方案。我们进一步提出了一种学习方法,能够从数据中得到合理的(尽管通常是次优的)变形星形分布。在合成示例和 MNIST 上的实验表明,该框架能够产生有意义的测地线、有效的去噪投影以及具有几何意识的分类,同时也指出了当前优化仍存在的局限性。 00footnotetext:我们的代码可在 https://github.com/wdiepeveen/Riemannian-Archetypal-Analysis 获取。 ## 1 引言 从数据中提取可解释的特征是探索性分析、理解构成成分以及支持下游分类和决策制定的核心任务。任何此类方法的有用性在很大程度上取决于其底层几何模型对数据的拟合程度。例如,主成分分析(PCA)pearson1901liii (https://arxiv.org/html/2605.24113#bib.bib55) 假设数据接近于一个在最小二乘意义上拟合的低维线性子空间;当这个假设被违反时,所得成分可能难以解释且实际价值有限。针对这一局限性,经典但仍被广泛使用的方法采用了更丰富的几何模型:独立成分分析(ICA)comon1994independent (https://arxiv.org/html/2605.24113#bib.bib14) 将数据建模为统计独立成分的线性混合,非负矩阵分解(NMF)paatero1994positive (https://arxiv.org/html/2605.24113#bib.bib53) 将数据表示为处于正象限中非负基向量所张成的锥形包络内,而原型分析(AA)cutler1994archetypal (https://arxiv.org/html/2605.24113#bib.bib15) 则将数据描述为位于一个顶点本身就是数据点的多胞体内。针对不同的数据类型和最终目标,这些基本思想的特定组合和改进形式常常被优先采用 abdolali2021simplex (https://arxiv.org/html/2605.24113#bib.bib1); ding2008convex (https://arxiv.org/html/2605.24113#bib.bib24); kleverov2026non (https://arxiv.org/html/2605.24113#bib.bib39); li2008minimum (https://arxiv.org/html/2605.24113#bib.bib47); lin2018maximum (https://arxiv.org/html/2605.24113#bib.bib48); miao2007endmember (https://arxiv.org/html/2605.24113#bib.bib49); nascimento2005vertex (https://arxiv.org/html/2605.24113#bib.bib52)。对于那些目标是识别代表性数据点(原型)、量化其他观测值如何与其相关,并利用这些关系进行分类或其他下游任务的应用,AA 具有若干优势。突出其相对于 ICA 和 NMF 的优势,AA 以极端数据点的形式提供可解释的因子(与 ICA 不同,后者的统计独立成分是线性方向,不一定对应于特定的代表性观测值),并且适用于一般的实值数据而无须非负性约束(与 NMF 不同,后者要求数据非负,并且通常得到不是实际观测值的基元素)。有关原型分析及其变体的全面概述,请参见 alcacer2025survey (https://arxiv.org/html/2605.24113#bib.bib4)。 ##### 迈向非线性原型分析 然而,AA 本质上是线性的:它在环境欧几里得空间中运行,并通过数据点的线性组合或凸混合来编码几何假设。在许多现代应用中,数据集中在高度非线性的流形附近 fefferman2016testing (https://arxiv.org/html/2605.24113#bib.bib26); whiteley2022statistical (https://arxiv.org/html/2605.24113#bib.bib69),而简单的线性或锥形模型无法捕捉真实几何结构,也无法在原型和观测值之间提供有意义的距离或插值概念。受此局限,人们提出了几种非线性的、基于神经网络的 AA 扩展方法。诸如 AAnet van2019finding (https://arxiv.org/html/2605.24113#bib.bib65) 等模型用学习的编码器-解码器架构替换线性原型映射,同时在潜在空间中保留原型结构;后续的适应性方法如 Deep AA keller2021learning (https://arxiv.org/html/2605.24113#bib.bib36) 将原型表示奠基于概率生成模型——变分自编码器(VAEs)kingma2013auto (https://arxiv.org/html/2605.24113#bib.bib37) 而非标准自编码器,进一步扩展了这一思想。尽管这些模型在单细胞分析等应用中取得了经验成功 venkat2025aanet (https://arxiv.org/html/2605.24113#bib.bib66) 以及相关扩展 tasissa2023k (https://arxiv.org/html/2605.24113#bib.bib64); wieser2025revisiting (https://arxiv.org/html/2605.24113#bib.bib70),但目前的非线性 AA 变体仍然将潜在空间视为一个特设的欧几里得空间,无法保证其中的距离或插值能反映原型与观测值之间有意义的几何关系——尽管这种可解释性正是这些方法的主要动机。这种缺乏严格几何可解释性的问题是非线性降维方法的一个常见批评 chari2023specious (https://arxiv.org/html/2605.24113#bib.bib11),并且它激发了大量关于赋予(变分)自编码器潜在空间有意义的几何结构的研究工作 bhasker2025uncovering (https://arxiv.org/html/2605.24113#bib.bib6); hartwig2026geodesic (https://arxiv.org/html/2605.24113#bib.bib31); kohli2021ldle (https://arxiv.org/html/2605.24113#bib.bib40); lee2025geometry (https://arxiv.org/html/2605.24113#bib.bib42); moon2019visualizing (https://arxiv.org/html/2605.24113#bib.bib51); psenka2024representation (https://arxiv.org/html/2605.24113#bib.bib57); vigouroux2026discovering (https://arxiv.org/html/2605.24113#bib.bib67)。然而,据我们所知,这些努力至今尚未扩展到非线性 AA 设置中。 ##### 迈向黎曼原型分析 我们在这项工作中的目标是通过利用黎曼几何来开发可证明具有几何意义的非线性 AA 方法,而不是泛化上述(仍属启发式的)方法以赋予非线性 AA 潜在空间有意义的几何结构。重要的是,这不应与仅仅选择一个非欧几里得潜在流形 cho2023hyperbolic (https://arxiv.org/html/2605.24113#bib.bib13); davidson2018hyperspherical (https://arxiv.org/html/2605.24113#bib.bib17) 相混淆,后者通常继承标准自编码器同样的可解释性问题,因为潜在几何并未明确地与数据分布和原型结构相关联。在较高层面上,重新用黎曼几何表述机器学习方法的目标是学习环境空间上的一个黎曼结构,使得数据形成(或被很好地近似为)一个低维的全测地子流形。然后,机器学习任务被表述为在该数据流形上的一个优化问题,并使用专门的黎曼优化技术求解;图 1 (https://arxiv.org/html/2605.24113#S1.F1) 展示了在原型分析背景下的一个示例。 参见图注 (a) 一个通过其水平集可视化的变形星形分布。 参见图注 (b) 黎曼原型分析的一个示例。 图 1: 来自变形星形分布的数据(蓝色)以 l2 范数意义(橙色)投影到由连接四个原型(红色)的测地线(绿色)所围成的流形上,通过黎曼原型映射(RAM)实现。每个投影点都允许一个测地重心表示,其权重向量对于投影到边界或角点的点是稀疏的,并且已经位于数据集流形近似内的点保持不变。 从数据中学习这样的黎曼结构并高效地评估流形映射(测地线、指数映射和对数映射)一直是一个活跃的研究领域 arvanitidis2016locally (https://arxiv.org/html/2605.24113#bib.bib5); diepeveen2024pulling (https://arxiv.org/html/2605.24113#bib.bib18); hauberg2012geometric (https://arxiv.org/html/2605.24113#bib.bib32); peltonen2004improved (https://arxiv.org/html/2605.24113#bib.bib56); Scarvelis2023 (https://arxiv.org/html/2605.24113#bib.bib60); sorrenson2025learning (https://arxiv.org/html/2605.24113#bib.bib62); sun2024geometryaware (https://arxiv.org/html/2605.24113#bib.bib63); 另请参见 gruffaz2025riemannian (https://arxiv.org/html/2605.24113#bib.bib28) 的近期综述。直到最近,这两个要素才在一个统一的数据驱动方式中得以实现 diepeveen2025scorebased (https://arxiv.org/html/2605.24113#bib.bib19),其中训练保体积归一化流来“展开”数据流形,从而产生一个具有闭式流形映射的拉回黎曼度量,该映射可证明地遵循底层变形高斯密度的高似然区域。在这种几何结构之上,黎曼神经网络变得实用。特别是,黎曼自编码器(RAEs)diepeveen2024pulling (https://arxiv.org/html/2605.24113#bib.bib18),可被视为 PCA 的非线性推广,实现了到低维子流形的 l2 投影,该投影在足够规则的微分同胚下通常可以闭式近似 diepeveen2024pulling (https://arxiv.org/html/2605.24113#bib.bib18) 或在其他情况下通过等黎曼优化高效求解 diepeveen2025isoriemanopt (https://arxiv.org/html/2605.24113#bib.bib23)。然而,正如经典 PCA 非常适合欧几里得空间中的(近似)高斯数据那样,RAEs 以及更一般地 diepeveen2025scorebased (https://arxiv.org/html/2605.24113#bib.bib19) 提出的框架主要适用于底层几何模型是通过保体积微分同胚(或者更一般地,具有常数雅可比行列式的微分同胚)获得的变形高斯分布这一设定。这是有局限性的:并非所有数据分布都能在这样的微分同胚下被推前到高斯分布,特别是变形星形分布——原型分析所依赖的自然几何模型——并不符合这种范式。因此,现有的黎曼几何工作流程实际上仅达到了非线性 PCA 类型的方法,并且仍然无法捕捉 AA 旨在处理的(即使在线性设置下的)多胞体和星形几何结构。 ### 1.1 贡献 这一差距促使我们开发黎曼原型分析,这也是本工作的重点。我们的主要贡献如下: - **变形星形分布的拉回几何。** 我们引入了一个广泛的变形星形分布类别,并定义了相应的一个拉回黎曼几何族,其使用的微分同胚不具有常数雅可比行列式。我们证明了拉回测地线始终位于该分布的高似然区域内,并且通过在所提议的族中选择一个非平凡的拉回度量,我们能够获得更稳定且有意义的测地线。 - **黎曼原型映射(RAMs)。** 给定由变形星形分布诱导的拉回结构以及一组原型,我们将黎曼原型映射(RAM)定义为数据点到原型测地凸组合流形上的投影。我们将该投影重新表述为一个非凸约束优化问题,并提出一种算法,该算法从凸松弛初始化以获得可靠解,其到每个原型的距离可直接用于分类和其他下游任务。 - **学习原型和星形分布。** 我们解释了为什么标准的负对数似然训练不适合可靠地恢复变形星形分布,而是提出了一种结合经典归一化流训练的构造性学习方案。该方案的动机是观察到具有常数雅可比行列式的多尺度归一化流自然地诱导出星形的潜在分布,我们利用这一点来同时学习原型及其相关的变形星形几何。 ### 1.2 相关工作和更广泛的影响 ##### 抽象流形上的特征提取 RAEs 建立在最初在抽象流形设定下发展的思想之上,既用于构建低维数据流形 fletcher2004principal (https://arxiv.org/html/2605.24113#bib.bib27),也用于理解其几何行为 diepeveen2025curvature (https://arxiv.org/html/2605.24113#bib.bib20)。尽管 RAE 最终使用环境空间中的(非内蕴的)l2 投影,但这种与完全内蕴设定的区别可以在很大程度上通过在学习流形的同时在一个不同于 Levi-Civita 联络的联络(称为等联络)下执行数据分析来解决 diepeveen2025manifold (https://arxiv.org/html/2605.24113#bib.bib22),该联络被选择为使测地线保持其形状同时获得恒定的 l2 速度,并诱导出与环境欧几里得几何更对齐的距离概念。从这个角度来看,自然应该首先在抽象流形设定中寻找 AA 的推广,然后特化到数据驱动的几何结构。然而,据我们所知,目前还没有 AA 的抽象流形模拟,这与 ICA 和 NMF 不同,后两者已有基于流形的推广方法 ho2013nonlinear (https://arxiv.org/html/2605.24113#bib.bib34); chew2025curvature (https://arxiv.org/html/2605.24113#bib.bib12)。话虽如此,这些流形 ICA 和 NMF 方法尚未适应于机器学习应用中出现的混合(内蕴-外蕴)度量设定。所有这些都表明,在纯粹内蕴设定之外寻找 AA 可能指示了如何在纯内蕴设定中构建它,并为将 ICA、NMF 以及广义的流形方法族 miolane2020geomstats (https://arxiv.org/html/2605.24113#bib.bib50) 扩展到更广泛的应用范围提供了路线图。 ##### 学习数据流形上的信号处理 对于由非高度正则的微分同胚(特别是那些不具有像我们的变形星形设定中的常数雅可比行列式的微分同胚)诱导的 RAEs,通常必须诉诸优化而非闭式方法来计算相关映射。
相似文章
GRALIS:通过里斯表示定理实现线性归因方法的统一规范框架
这篇 arXiv 预印本介绍了 GRALIS,这是一个利用里斯表示定理(Riesz Representation Theory)来形式化和比较 SHAP、LIME 及积分梯度(Integrated Gradients)等线性归因方法的统一数学框架。
RADAR:表征间的相对角度散度
RADAR是一种基于几何的度量,通过分析表征的逐层角度与距离变化,并利用域内与跨域轨迹分布之间的KL散度,来估计基础模型中的跨领域可迁移性。
LoRA适配器的特征几何:微调语言模型中表征差异的稀疏自编码器分析
本文使用稀疏自编码器分析了语言模型中LoRA诱导表征的几何结构,发现LoRA更新占据的部分特征结构无法完全被预训练的可解释性词典捕获。
AlphaEarth嵌入几何刻画:面向智能体环境推理
分析Google AlphaEarth在1210万美国样本上的64维嵌入流形,揭示其非欧结构与向量算术失效,并构建具备几何感知工具的智能体系统,在环境查询上超越参数基线。
学习一致性表征:一种拓扑可解释性方法
本文介绍了一致性(coherence)这一几何约束,受大脑中网格细胞和头朝向细胞的启发。一致性确保特征响应数据流形上的几何连通区域,从而提升可解释性;作者提出了一个可微分的目标函数(Coh),并在合成数据、旋转MNIST和BERT词元嵌入上进行了验证。