解锁潜在维度：使用变分自编码器探索大规模X射线散射数据的表征

arXiv cs.LG 2026/06/16 04:00 论文

摘要

本文探讨了使用变分自编码器学习大规模X射线散射数据的潜在表征，从而实现高效的数据压缩和分析。

arXiv:2606.14999v1 Announce Type: new 摘要: 科学用户设施产生X射线散射数据的速度超过了传统工作流程的处理能力。我们针对离线数据集探索和实时动态分析两种场景应对这一挑战。我们训练了一个基于注意力机制的领域特定卷积变分自编码器（C-VAE），使用150万张X射线散射图像，学习低维表征，捕捉不同实验条件下的结构变化。学习到的潜在空间揭示了组织良好的聚类和反映实验进展的平滑轨迹。此外，它支持在不同结构状态下生成受控的合成散射图像。在无需重新训练的情况下，该模型将两个同步辐射设施的时间分辨薄膜形成实验组织成可解释的潜在结构。与通用视觉基础模型DINOv3（ViT-7B）的基准测试表明，领域特定的训练能够为散射数据产生更具可解释性的潜在组织。这两个工作流程都集成在MLExchange平台的组件Latent Space Explorer中，支持对归档数据集和实时实验进行交互式结构探索。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:36

# 利用变分自编码器探索大规模X射线散射数据的表征

**来源：** https://arxiv.org/html/2606.14999

Xiaoya Chong  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Runbo Jiang  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Wiebke Koepp  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Petrus H. Zwart  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室能源研究应用数学高级中心  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室分子生物物理学与综合生物成像部  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室伯克利同步辐射红外结构生物学项目

Damon English  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Gregory M. Su  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室材料科学部

Eric Schaible  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Chenhui Zhu  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Mostafa Nassr  
美国德克萨斯州奥斯汀市德克萨斯大学麦凯塔化学工程系

Noah P. Wamble  
美国德克萨斯州奥斯汀市德克萨斯大学麦凯塔化学工程系

Kelvin Kam-Yun Li  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室材料科学部  
美国加利福尼亚州伯克利市加利福尼亚大学化学系

Jonathan M. Chan  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Jose Carlos Diaz  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
美国德克萨斯州奥斯汀市德克萨斯大学麦凯塔化学工程系

Cameron McKay  
美国德克萨斯州奥斯汀市德克萨斯大学马瑟土木、建筑与环境工程系

Lynn Katz  
美国德克萨斯州奥斯汀市德克萨斯大学马瑟土木、建筑与环境工程系

Benny Freeman  
美国德克萨斯州奥斯汀市德克萨斯大学麦凯塔化学工程系

Guillaume Freychet  
美国纽约州阿普顿市布鲁克海文国家实验室国家同步辐射光源II  
法国格勒诺布尔大学，CEA，Leti，F-38000格勒诺布尔

Yevgen Matviychuk  
美国纽约州阿普顿市布鲁克海文国家实验室国家同步辐射光源II

Eliot Gann  
美国纽约州阿普顿市布鲁克海文国家实验室国家同步辐射光源II

Daniel B. Allan  
美国纽约州阿普顿市布鲁克海文国家实验室国家同步辐射光源II

Benedikt Sochor  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
德国汉堡德国电子同步加速器DESY，Notkestr. 85，22607汉堡

Frank Schluenzen  
德国汉堡德国电子同步加速器DESY，Notkestr. 85，22607汉堡

Stephan V. Roth  
德国汉堡德国电子同步加速器DESY，Notkestr. 85，22607汉堡  
瑞典斯德哥尔摩皇家理工学院KTH纤维与聚合物技术系，Teknikringen 34–35

Ethan Crumlin  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室化学科学部

Dylan McReynolds  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Tanny Chavez  
通讯作者：[email protected]  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源

Alexander Hexemer  
通讯作者：[email protected]  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室先进光源  
美国加利福尼亚州伯克利市劳伦斯伯克利国家实验室能源研究应用数学高级中心

###### 摘要

科学用户设施产生的X射线散射数据，其速度远超传统工作流的处理能力。我们针对两种场景（离线数据集探索和实时在线分析）来解决这一挑战。我们在150万张X射线散射图像上训练了一个领域专用的、基于注意力的卷积变分自编码器（C-VAE），以学习捕捉不同实验条件下结构变化的低维表征。学习到的潜空间呈现出组织良好的聚类以及反映实验进程的平滑轨迹。它还支持在多种结构状态下生成受控的合成散射图像。在未重新训练的情况下部署该模型时，它能够将两个同步辐射设施的时间分辨薄膜形成实验组织成可解释的潜结构。与通用视觉基础模型DINOv3（ViT-7B）的基准测试表明，对于散射数据，领域专用训练能产生更具可解释性的潜组织。两种工作流均已集成到MLExchange平台的Latent Space Explorer组件中，支持对存档数据集和实时实验的交互式结构探索。

**关键词：** 变分自编码器，X射线散射，潜空间，表征学习，同步辐射，在线分析，降维

## 1 引言

现代实验设施数据量的快速增长，从根本上改变了同步辐射设施中实验数据的收集和分析方式。科学用户设施（SUFs）的探测器在多种实验条件下生成数百万张高分辨率图像，从而产生异质且高维的数据集。基于手动检查或离线批处理的传统工作流，越来越难以跟上现代数据采集速度。随着实验工作流向自主和自适应数据收集方向发展，对能够从大规模科学数据中实时提取可解释结构的计算模型和软件基础设施的需求日益增长[2 (https://arxiv.org/html/2606.14999#bib.bib1),32 (https://arxiv.org/html/2606.14999#bib.bib2),30 (https://arxiv.org/html/2606.14999#bib.bib28)]。近期研究表明，机器学习（ML）有助于分析复杂的X射线数据并揭示底层动力学[15 (https://arxiv.org/html/2606.14999#bib.bib5)]，包括大型衍射数据集的分类[35 (https://arxiv.org/html/2606.14999#bib.bib41)]、纳米衍射图案的物理感知实时分析[26 (https://arxiv.org/html/2606.14999#bib.bib35)]，以及同步辐射束线的闭环反馈控制[33 (https://arxiv.org/html/2606.14999#bib.bib32)]。特别是基于深度神经网络的表征学习技术，能够在无需领域专家手动定义或选择待分析特定数据特征的情况下，从高维科学数据中发现有意义的结构。对于成像数据，卷积神经网络（CNNs）[20 (https://arxiv.org/html/2606.14999#bib.bib7)]等架构能有效捕捉局部空间相关性，而注意力机制[44 (https://arxiv.org/html/2606.14999#bib.bib8)]则通过建模长程依赖关系和层次结构[10 (https://arxiv.org/html/2606.14999#bib.bib9),5 (https://arxiv.org/html/2606.14999#bib.bib20)]进一步扩展了这种能力。在这些进展的基础上，现代方法旨在将复杂数据编码成紧凑的低维潜表征，以捕捉数据集中主导的变化。这种潜表征为组织、可视化和探索大型散射数据集提供了自然框架[19 (https://arxiv.org/html/2606.14999#bib.bib3),28 (https://arxiv.org/html/2606.14999#bib.bib11)]。变分自编码器（VAEs）[19 (https://arxiv.org/html/2606.14999#bib.bib3)]为学习这种结构化潜空间提供了概率方法，并已成功应用于广泛的科学成像问题，包括材料表征和散射实验[9 (https://arxiv.org/html/2606.14999#bib.bib25),23 (https://arxiv.org/html/2606.14999#bib.bib4),18 (https://arxiv.org/html/2606.14999#bib.bib6),16 (https://arxiv.org/html/2606.14999#bib.bib29),42 (https://arxiv.org/html/2606.14999#bib.bib37),17 (https://arxiv.org/html/2606.14999#bib.bib40),3 (https://arxiv.org/html/2606.14999#bib.bib46)]以及流形感知的合成数据生成[6 (https://arxiv.org/html/2606.14999#bib.bib47)]。与此同时，无标签蒸馏（DINO）等自监督视觉Transformer（ViT）模型在学习可迁移图像表征方面表现出了强大性能[10 (https://arxiv.org/html/2606.14999#bib.bib9),31 (https://arxiv.org/html/2606.14999#bib.bib19)]。这些学习到的表征共同支持广泛的下游任务，包括结构相位跟踪[40 (https://arxiv.org/html/2606.14999#bib.bib39)]、无监督异常检测[39 (https://arxiv.org/html/2606.14999#bib.bib42)]、分割[34 (https://arxiv.org/html/2606.14999#bib.bib43),47 (https://arxiv.org/html/2606.14999#bib.bib44)]以及交互式感兴趣区域选择[36 (https://arxiv.org/html/2606.14999#bib.bib38)]。学习到的潜空间还具备生成合成散射图像的能力，为扩充实验数据集中表征不足的结构状态提供了一条途径[49 (https://arxiv.org/html/2606.14999#bib.bib45),6 (https://arxiv.org/html/2606.14999#bib.bib47),18 (https://arxiv.org/html/2606.14999#bib.bib6)]。这些表征通常使用主成分分析（PCA）[27 (https://arxiv.org/html/2606.14999#bib.bib10)]、均匀流形逼近与投影（UMAP）[28 (https://arxiv.org/html/2606.14999#bib.bib11)]和t分布随机邻近嵌入（t-SNE）[43 (https://arxiv.org/html/2606.14999#bib.bib12)]等降维技术进行可视化，从而能够观察观测值之间的全局关系。HDBSCAN[4 (https://arxiv.org/html/2606.14999#bib.bib13)]等聚类方法进一步允许识别大型数据集中结构相似的图案。在多个领域，包括生物医学成像[22 (https://arxiv.org/html/2606.14999#bib.bib30)]和分子发现[46 (https://arxiv.org/html/2606.14999#bib.bib31)]，已经开发出用于导航这些学习到的表征的交互式工具，展示了视觉分析在高维科学数据中的价值。尽管取得了这些进展，但在两种不同场景下，从大规模散射数据集中提取可解释结构仍然具有挑战性。在实验后分析（所有数据离线可用）中，潜表征使得能够以交互方式探索大型实验档案。MLExchange平台[48 (https://arxiv.org/html/2606.14999#bib.bib14)]是一个网络环境，用于在科学用户设施中实现可交换的机器学习工作流，其Latent Space Explorer¹¹¹https://github.com/mlexchange/mlex_latent_explorer组件为离线数据集探索提供了交互式降维、聚类和对学习到的嵌入进行可视化的功能[8 (https://arxiv.org/html/2606.14999#bib.bib16)]。在在线分析中，数据在活跃实验期间连续到达，这需要在数据采集开始前部署预训练模型。最近的努力已经证明了ML引导的在线分析在相关散射场景中的应用，包括X射线衍射中的自主相位识别[41 (https://arxiv.org/html/2606.14999#bib.bib34)]以及薄膜结晶过程中的实时结构跟踪[38 (https://arxiv.org/html/2606.14999#bib.bib33)]。在这种场景下，一个关键问题出现了：通用视觉模型是否足够，还是X射线散射数据的领域特异性需要专门在散射图像上训练的模型？领域专用模型已显示出对散射数据的明显优势；例如，针对SAXS/WAXD图像的专用去噪模型通过捕捉散射特有的纹理特征，其性能优于通用方法[50 (https://arxiv.org/html/2606.14999#bib.bib36)]。像DINOv3[37 (https://arxiv.org/html/2606.14999#bib.bib18)]这样的通用自监督模型（我们使用其ViT-7B变体，基于DINO框架[31 (https://arxiv.org/html/2606.14999#bib.bib19),5 (https://arxiv.org/html/2606.14999#bib.bib20)]）从大型自然图像集合中学习了强大的表征，但可能无法捕捉到对散射分析最相关的结构变化。DINOv3基于DINO框架，其中一个学生网络被训练来匹配动量教师网络的输出，使用每张图像的多个增强视图[5 (https://arxiv.org/html/2606.14999#bib.bib20)]。这种策略无需标记数据即可生成强大的通用视觉特征。

参考图注

图1：C-VAE散射数据分析流水线。(1) 在先进光源（ALS）收集的150万张X射线散射图像的大规模档案作为训练数据集。(2) 一个领域专用的、基于注意力的卷积变分自编码器（C-VAE），采用窗口自注意力，在NERSC Perlmutter的80个NVIDIA A100 GPU上进行训练，学习了散射数据的512维潜表征。(3) 学习到的潜空间将散射图案组织成结构化聚类，并伴有反映实验进程的平滑轨迹，此处通过UMAP投影进行可视化。(4) 预训练的C-VAE模型（1.23亿参数，512维潜空间）在无需重新训练的情况下部署到下游应用中。(5a) 离线实验后分析：通过Latent Space Explorer界面交互式探索来自多个设施的存档数据集，支持聚类、潜轨迹分析和从聚类到图案的检查。(5b) 在线实时分析：在ALS 7.3.3束线和NSLS-II SMI束线活跃实验期间流式传输的探测器图像被实时嵌入，从而提供即时结构洞察和轨迹监测。(5c) 通过UMAP引导的PCA采样和条件流匹配生成合成散射图像。(5d) 与通用视觉基础模型DINOv3进行基准测试，以评估领域专用训练对散射数据分析的益处。

在这项工作中，我们通过训练一个领域专用的、基于注意力的卷积变分自编码器（C-VAE）来解决这两种场景，该模型基于在先进光源收集的150万张历史X射线散射图像进行训练。我们首先证明，C-VAE从该历史数据集中学习了一个组织良好的潜空间，其中聚类对应不同的散射区域，轨迹反映实验进程。然后，将这一预训练模型部署到两个同步辐射设施的先前未见过的实验中进行在线分析。为了直接评估领域专用训练的益处，我们将C-VAE与DINOv3（ViT-7B）[37 (https://arxiv.org/html/2606.14999#bib.bib18)]在同一在线数据上进行基准测试，检验在散射图像上训练的模型是否能比大型通用视觉模型捕捉到更具可解释性的潜结构。两种工作流均已集成到MLExchange平台的Latent Space Explorer组件中，支持在离线实验后分析和实时实验会议期间进行交互式探索。这项工作做出了以下贡献：

- • 开发了一种基于注意力的卷

解锁潜在维度：使用变分自编码器探索大规模X射线散射数据的表征

相似文章

稀疏自编码器中概念学习与神经元解释的几何视角

变分有损自编码器

先连续后离散：解决维度坍塌问题的VQ-VAE

基于混合潜空间建模的结构连接组获取变异无监督学习

分子潜在扩散中的暗区平滑化

提交意见反馈