MagBridge-Battery:用于锂离子电池磁测量与健康状态诊断的合成桥梁数据集

arXiv cs.LG 论文

摘要

本文介绍MagBridge-Battery,这是一个包含6,760个磁场信号的合成数据集,用于锂离子电池健康状态诊断,结合真实磁形态学与真实退化标签,以弥合公开磁感应电池数据方面的空白。

arXiv:2605.20240v1 公告类型:新 \ 摘要:目前电池健康诊断主要依赖在电池端子处测量的电化学信号。并行研究表明,磁感应可以解析仅端子测量无法获取的信息,但方法的发展受限于缺乏公开的电池磁测量数据集(带退化标签)。我们发布了MagBridge-Battery v1.0,这是一个包含6,760个磁场信号的合成数据集,它弥合了来自Mohammadi-Jerschow Open Science Framework (OSF) 档案的真实磁形态学与来自PulseBat数据集的健康状态(SOH)标签之间的差距。该数据集包含5,600个基于PulseBat条件的真实样本、600个从清洁母本派生的合成传感器异常样本以及560个低电压Regime-B外推样本。一个小区分、无父-子泄漏的主要基准分割经过验证,包含零重叠电池、零交叉分割父-子对以及零样本ID重叠。我们定义了三个主要基准任务:SOH回归、二次寿命分类和异常检测,以及一个辅助异常子类型分类任务。一个控制标签洗消实验使SOH回归从R^2约0.77降至约0,证实该桥梁非平凡地编码了输入的SOH而非产生标签对齐的伪影。该数据集在Zenodo上以CC-BY-4.0发布,桥梁代码和基准套件以Apache-2.0发布。这项工作在配对磁电化学测量仍然稀少的情况下,为磁感应电池诊断提供了一个公共基准。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:20

# MagBridge-Battery:用于锂离子磁强测量与健康状态诊断的合成桥接数据集
来源:https://arxiv.org/html/2605.20240
###### 摘要

当今电池健康诊断严重依赖电芯端子的电化学信号。并行文献表明,磁传感可以解析仅通过端子测量无法获得的信息,但据我们所知,该领域方法发展的主要障碍是缺乏公开的、带有退化标签的电池磁性测量数据集。我们发布了MagBridge-Battery v1.0,这是一个包含6,760个磁场信号的合成数据集,它桥接了来自Mohammadi–Jerschow开放科学框架(OSF)档案的真实磁性形态与来自PulseBat数据集的真实健康状态(SOH)标签。该版本包含5,600个基于PulseBat条件的接地样本、600个从清洁父样本派生的合成传感器异常样本,以及560个低压Regime-B外推样本。通过验证,一个无细胞重叠、无父-子泄漏的主基准划分确保零重叠电池、零跨划分父-子对、零样本ID重叠。我们定义了三个主要基准任务(SOH回归、二阶段寿命分类、异常检测)和一个辅助异常子类型分类任务,并通过受控消融套件验证了数据集:标签洗牌消融使SOH回归从R²≈0.77降至≈0,确认桥接非平凡地编码了输入SOH,而非产生与标签对齐的伪影。数据集以CC-BY-4.0许可在Zenodo上发布;桥接代码和基准套件以Apache-2.0许可发布。在配对磁-电化学测量仍然稀缺的情况下,这项工作填补了磁传感电池诊断公共数据的空白。

## IMotivation

当今电池健康诊断严重依赖*电化学信号*:在电芯端子处测量的电压、电流、温度和阻抗。驱动方法发展的公共数据集也反映了这一点。NASA、牛津、CALCE、斯坦福/Severson、MATR、HUST、XJTU和PulseBat都提供了丰富的电化学时间序列,具有不同程度的退化,带有良好表征的SOH标签,并且在许多情况下,提供了完整的退化轨迹[10 (https://arxiv.org/html/2605.20240#bib.bib1),11 (https://arxiv.org/html/2605.20240#bib.bib2)]。这些数据集推动了早期寿命预测、容量衰减估计和二阶段寿命分类方面的大量工作。

但它们都没有捕捉到*电池内部的电流和磁化空间分布*。从构造上讲,仅端子测量无法感知局部的电荷存储热点、电极表面的非均匀氧化还原、枝晶形成以及在老化过程中出现的或表明制造缺陷的内部缺陷类型。一个并行的研究文献(规模小得多,且几乎完全没有公共数据)表明,磁强测量可以解析这些缺失的信息[6 (https://arxiv.org/html/2605.20240#bib.bib7),9 (https://arxiv.org/html/2605.20240#bib.bib9),4 (https://arxiv.org/html/2605.20240#bib.bib11),5 (https://arxiv.org/html/2605.20240#bib.bib12),8 (https://arxiv.org/html/2605.20240#bib.bib14),1 (https://arxiv.org/html/2605.20240#bib.bib15)]。

在过去几年中,这项工作显著加速。光泵磁力计、氮空位金刚石传感器和SQUID阵列已经成熟,适用于商业电池的常规测量。QuaLiProM联盟(Fraunhofer IFAM、FAU Erlangen和工业合作伙伴;BMBF资助;运行至2026年11月)正在明确构建一个将磁强测量与深度学习相结合的工业流程,用于退役电池的二阶段寿命分类[2 (https://arxiv.org/html/2605.20240#bib.bib17)]。亚琛-于利希-苏塞克斯-PTB合作近期展示了6000 mAh电池的量子磁成像[1 (https://arxiv.org/html/2605.20240#bib.bib15)]。离子和电子电流分布的操作式磁显微镜于2025年底发表在《Nature Communications》上[8 (https://arxiv.org/html/2605.20240#bib.bib14)]。趋势很明确:磁传感正在成为电池诊断的一流模态。

### I-A 空白

尽管有这一势头,但在公共领域中,有两件事明显缺失。首先,*据我们所知,没有公共数据集将电池磁性测量与退化标签配对*。对Zenodo、OSF、GitHub、Hugging Face和学术文献的系统搜索仅发现了一个公开存档的电池原始磁扫描数据集:与Mohammadi、Ilott和Jerschow相关的OSF档案(以下简称“OSF”)[4 (https://arxiv.org/html/2605.20240#bib.bib11),7 (https://arxiv.org/html/2605.20240#bib.bib16)]。它包含单个锂离子电池在五个工作电压下的高分辨率磁场测量,每个电压有41个扫描位置。它不包括SOH标签、多电池变化或退化轨迹。所有其他报告电池磁性测量的出版物都使用专有或未发布的数据。

其次,*没有桥接将丰富的电化学退化数据集连接到任何磁传感模态*。为磁SOH估计、二阶段寿命分类或异常检测构建方法的研究人员没有公共基准可以开发。跨实验室比较基本上是不可能的。

这项工作提出一个问题:在等待配对的磁-电化学数据公开之前,社区能否通过*合成方式桥接*这两种模态来取得实际进展?

## II MagBridge-Battery v1.0 数据集

MagBridge-Battery v1.0是这项工作的核心产物。我们在此描述其组成、模式、划分和完整性属性。生成它的桥接架构在§III (https://arxiv.org/html/2605.20240#S3)中描述;验证在§IV (https://arxiv.org/html/2605.20240#S4)中。

### II-A 组成

该版本包含**6,760个磁信号**,根据来源分为三组(图1 (https://arxiv.org/html/2605.20240#S2.F1)):

- **5,600个PulseBat条件接地样本**。由桥接在接地模式(v∈[3.06,3.34]V)下生成,以来自真实退役电池脉冲测试的PulseBat派生(SOH、SOC、U-特征)为条件。每个样本携带完整的标签集。
- **600个合成传感器异常样本**。四个子类型,各150个,通过受控扰动从清洁父样本派生:`sensor_dropout`、`calibration_drift`、`temporal_warp`、`periodic_inference`。每个异常行携带一个`parent_sample_id`指向其清洁父样本。
- **560个低压Regime-B外推样本**。聚集在三个低压锚点(`nearest_anchor∈{2.54,2.81,3.00}`V),位于PulseBat分布范围之外。*Regime-B样本旨在用于低压/离群/异常风格评估,而非SOH回归。* `soh`、`u_features`和`second_life_class`设计为NaN。

每个样本是一个长度为100的序列,具有六个信号通道加上一个归一化时间轴。MagBridge-Battery v1.0仅使用PulseBat的LFP子集;PulseBat中的NMC和LMO记录保留用于未来的跨化学扩展(§VII (https://arxiv.org/html/2605.20240#S7))。

MagBridge-Battery v1.0 — 6,760个样本  
5,600个接地(82.8%)  
600个(8.9%)  
560个(8.3%)  
■ 接地:PulseBat条件,分布内电压,完整标签。  
■ 异常:4个子类型×各150个,从清洁父样本派生。  
■ Regime-B:2.54/2.81/3.00 V锚点;SOH设计为NaN。  
主划分(by_cell_primary)电池不重叠,父-子无泄漏  
训练:4,507 验证:1,074 测试:1,179  
0个电池重叠  
0个跨划分父-子对  
图1:MagBridge-Battery v1.0组成。数据集包含6,760个样本:5,600个接地样本、600个合成异常样本和560个低压Regime-B样本。条宽与样本数量成比例。主要基准划分是by_cell_primary,电池不重叠且无父-子泄漏。

### II-B 模式

每行携带六个长度为100的信号通道:

B_s1Y, B_s1Z, B_s2Y, B_s2Z, B_s1C5, B_s2C6。

前四个是传感器1和2的有符号Y/Z分量。后两个是OSF源中的通道5和通道6字段;OSF档案将这些通道标记为Mag,但它们的值是有符号的,可以合法地为负(123行在B_s1C5中包含负条目;86行在B_s2C6中;最小值分别为-80.47和-94.08)。我们在发布模式中将其重命名为C5和C6,以避免暗示严格的√(Y²+Z²)幅度解释。B_s1C5和B_s2C6保留为有符号源通道,不被解释为严格的物理幅度。

一个`time_norm`列携带100个等间距值在[0,1]内。每个样本都是相同的向量——一个为加载器方便而包含的恒定参考网格,可丢弃而不损失信息。`temporal_warp`异常在此固定网格上扰动信号值;它不导出不规则的单样本时基。

元数据字段包括标识符(`sample_id`、`parent_sample_id`、`cell_id`、`generation_seed`)、来源(`bridge_version`、`bridge_config_hash`、`schema_version`)、状态标签(`voltage`、`soc`、`soh`、`chemistry`、`regime`、`nearest_anchor`、`u_features`、`second_life_class`)以及异常标签(`anomaly_flag`、`anomaly_subtype`、`anomaly_origin`、`anomaly_severity`)。

### II-C 基准划分

我们提供两个划分。

所有主要基准结果都在`by_cell_primary`划分上报告,该划分电池不重叠且无父-子泄漏。训练/验证/测试计数为4,507 / 1,074 / 1,179(图1 (https://arxiv.org/html/2605.20240#S2.F1))。已验证的保证:子集之间无物理电池重叠,无(清洁父样本,异常子样本)对跨子集边界,无样本ID重叠。这是用于任何报告数字的划分。

配套的`by_record_optimistic_baseline`划分*仅*作为对比提供,不建议用于基准报告。其泄漏已明确量化:59个电池出现在多个子集中,292个父-子对被分割到子集边界之外。在此划分上训练的模型会显得人为强大;我们提供它以便可以直接测量膨胀效应。

### II-D 完整性属性

发布版本已对提供的工件进行了审计。已验证:所有6,760行中无重复`sample_id`值;无重复的全信号哈希;六个信号通道中无NaN或无穷大条目;统一长度100信号数组;精确的元数据到分片ID对应;所有600个合成异常的有效父-子链接(所有父样本存在且清洁);无废弃模式字段或遗留异常标签的残余。已发布包中每个文件的SHA-256校验和都已包含。

### II-E 文件布局、许可证和引用

发布版本作为一个捆绑包提供:五个Parquet分片,每片1,352行,一个仅元数据的Parquet视图,两个划分JSON文件,一个包含桥接版本和配置哈希的生成清单,一个最小的Python加载器,SHA-256校验和以及许可文件。数据集采用CC-BY-4.0许可;发布代码采用Apache-2.0许可;LICENSE文件记录了上游来源(OSF磁强测量档案和PulseBat数据集)及其各自的许可声明。*本版本中不重新分发任何原始上游数据*;来自OSF档案的聚合统计(每个锚点的均值和方差)嵌入在桥接实现中,但不在发布的数据文件中。

用户请引用本文和数据集DOI;请参阅发布包中的CITING.md获取推荐的双重引用格式。发布版本在Zenodo上(DOI:10.5281/zenodo.20260147),代码在GitHub上:https://github.com/SakthiGs/MagBridge-Battery。

## III 桥接架构

桥接是一个确定性函数 B(v, SOC, SOH, u; θ) → X ∈ R^{T×C},它将生成请求——工作电压v、荷电状态SOC、健康状态SOH以及PulseBat U-特征向量u∈R^21——映射到一个长度为T=100、跨C=6个通道(§II-B (https://arxiv.org/html/2605.20240#S2.SS2))的合成磁信号时间序列。配置θ收集所有可调参数,在桥接实例化时固定一次。生成是可重现的:给定的(请求,θ,种子)元组始终产生相同的输出。

图2 (https://arxiv.org/html/2605.20240#S3.F2)总结了桥接的数据流。桥接有四个组件,按顺序应用:一个模式分类器、一个源自OSF的形态库、一个通过我们称为MagBridge-Embed的学习潜在表示以PulseBat标签为条件的退化调制器,以及一个噪声模型。退化调制器的完整数学规范(LDA投影、扰动、k-NN softmin解码和基-调制混合的方程)在附录A (https://arxiv.org/html/2605.20240#A1)中提供;我们在此描述概念层面的架构。

OSF磁强测量 (Mohammadi–Jerschow)  
1个电池,5个电压锚点,每锚点41次扫描  
PulseBat数据集 (Tao et al.)  
464个退役锂离子电池,SOH, SOC, U-特征  
形态库  
每锚点 μ_v, σ_v  
退化调制器  
MagBridge-Embed (171-D) → 4-D LDA → 锥限k-NN softmin解码  
模式分类器  
接地 / Regime-B  
噪声模型  
传感器噪声 + SOC波动  
MagBridge-Battery v1.0  
6,760个样本  
T=100, C=6  
CC-BY-4.0  
聚合统计  
SOH, SOC, u  
不重新分发原始上游数据。来自OSF的每锚点聚合统计和来自PulseBat的每电池标签/特征值用作桥接输入;仅发布合成输出。  
图2:桥接架构。来自OSF档案的真实磁性形态和来自PulseBat的SOH/SOC/U-特征标签通过形态库、MagBridge-Embed退化调制器、模式分类器和噪声模型组合,生成MagBridge-Battery v1.0。仅发布合成输出;不重新分发原始上游文件。

### III-A 模式分类器

桥接处理两种操作模式,源自对OSF电压锚点和PulseBat U-特征分布的跨数据分析:

- **接地模式**(v∈[3.06,3.34]V):OSF形态和PulseBat条件都填充此范围。桥接使用PulseBat派生的(SOH, SOC)作为条件,在OSF的3.10 V和3.34 V锚点之间进行插值。
- **Regime B(外推)**(v∈[2.54,3.06)V):仅OSF填充此范围;PulseBat出于安全原因不进行过放测试。桥接在此处再现OSF形态,而无PulseBat接地条件。如§[II-A (https://arxiv.org/html/2605.20240#S2.SS1)所述,Regime-B样本旨在用于低压/离群评估,而非SOH回归。

支持[2.54,3.34]V之外的电压,但会拒绝。每个生成的样本将其模式作为元数据携带。

### III-B 形态库

OSF档案被规范化到每个锚点的经验统计:在五个锚点电压{2.54, 2.81, 3.00, 3.10, 3.34}V中的每一个,桥接提取平均值和协方差。这些统计信息为每个锚点定义了一个高斯形态先验,用作生成过程的骨架。来自OSF的原始扫描数据从不直接使用——仅使用聚合统计信息,这些统计信息嵌入在桥接实现中,不在发布的数据集中。

形态库在接地模式下提供三个锚点(3.10V、3.34V和两者之间的插值),在Regime-B模式下提供三个锚点(2.54V、2.81V、3.00V)。桥接根据其工作模式在适当锚点之间插值。

### III-C 退化调制器

退化调制器是桥接的核心智能组件。它负责将PulseBat派生的退化信息(SOH、SOC、U-特征)嵌入到从形态库绘制的基磁信号中。

**MagBridge-Embed**:首先,PulseBat标签向量(SOH、SOC以及21个U-特征)被投影到一个低维潜在空间中。我们使用线性判别分析(LDA)将171维输入空间减少到4维。这个4维表示捕获了与退化相关的变化轴。然后,通过锥限k-NN softmin解码,将这个潜在表示映射到形态库基空间,生成与输入退化状态相对应的每个信号通道、每个时间点的调制系数。

**基本-调制混合**:给定调制系数,桥接通过以下方式生成最终信号:从形态库中抽取一个基信号,然后应用依赖于SOH、SOC和U-特征的加性调制。调制被限制在物理上合理的方向上(例如,总磁场幅度的正负变化是允许的,但某些交叉通道相关性被约束)。然后添加一个随机噪声项来模拟传感器噪声和SOC波动。整个过程是确定性的给定种子,因此是完全可重现的。

**标签对齐验证**:在§IV (https://arxiv.org/html/2605.20240#S4)的消融实验中,我们表明当SOH标签被洗牌时,SOH回归性能下降到接近0,证实桥接没有学习到仅凭自身磁信号可预测的人为SOH模式。相反,磁信号必须与输入的SOH标签协同使用才能实现预测。这验证了桥接确实编码了非平凡的SOH信息。

### III-D 噪声模型

噪声模型向合成信号添加两个受控的随机组件:低振幅传感器噪声(建模为每个通道的独立高斯噪声,标准偏差固定为形态库中每个锚点经验噪声标准差的5%)和高振幅、时间相关的SOC波动(建模为一个低通滤波随机过程,其时间常数从PulseBat SOC轨迹估计)。噪声种子作为每个生成请求元数据的一部分进行追踪,确保可重现性。

## IV 验证与消融

我们通过一系列实验验证了MagBridge-Battery v1.0,这些实验测试了数据集在三个主要基准任务上的有用性,并确认其行为在物理上合理。

### IV-A 基准任务

我们定义了三个主要基准任务和一个辅助任务:

- **任务1:SOH回归**。从6通道磁信号序列预测连续SOH值(0-100%)。评估指标:R²、均方根误差(RMSE)、平均绝对误差(MAE)。
- **任务2:二阶段寿命分类**。将电池分类为“健康”(SOH > 80%)或“退化”(SOH ≤ 80%)。评估指标:准确率、精确率、召回率、F1分数。
- **任务3:异常检测**。区分清洁样本和异常样本。评估指标:AUROC、AUPRC、在固定5%假阳性率下的真正例率。
- **辅助任务:异常子类型分类**。在异常样本中,将异常分类为其四种子类型(sensor_dropout、calibration_drift、temporal_warp、periodic_inference)之一。评估指标:分类准确率、每个子类型的F1分数。

### IV-B 基线模型

我们使用两个简单的基线模型来评估每个任务:

- **SOH回归**:一个2层全连接神经网络(隐藏单元128和64),以及一个线性回归模型。
- **二阶段寿命分类**:逻辑回归和随机森林。
- **异常检测**:孤立森林和基于重构的自动编码器(重构误差作为异常分数)。
- **异常子类型分类**:逻辑回归和随机森林分类器。

所有模型都在by_cell_primary划分的训练集上训练,并在测试集上评估。

### IV-C 消融:标签洗牌

为了确认SOH信息确实在磁信号中编码,而不是可作为伪信号学到的工痕迹,我们进行了标签洗牌消融。我们随机打乱了训练集中的SOH标签,从而破坏了SOH与磁信号之间的任何真实关系。然后,我们在打乱的数据集上重新训练SOH回归模型(相同的架构、相同的超参数),并在未打乱的测试集上进行评估。

结果:在原始数据集上,全连接神经网络实现了R²≈0.77的SOH回归。在打乱标签的数据集上,相同的架构降至R²≈0(实际上为-0.02,表明没有预测能力)。这证实了桥接产生的磁信号与输入的SOH标签之间存在非平凡的关系:当这种关系被破坏时,模型无法学习。因此,数据集确实编码了SOH信息,而不是包含易于产生虚假高分的伪影。

### IV-D 任务结果(示例)

表1显示了在by_cell_primary划分上使用全连接神经网络和逻辑回归的SOH回归和二阶段寿命分类结果。这些结果并非旨在设立强基线,而是证明任务是可解决的,并且数据集的行为如设计。

表1:MagBridge-Battery v1.0上的基准性能(by_cell_primary划分)

| 任务 | 模型 | 指标 | 值 |
|------|------|------|-----|
| SOH回归 | 2层全连接网络 | R² | 0.77 |
| SOH回归 | 线性回归 | R² | 0.71 |
| 二阶段寿命分类 | 逻辑回归 | AUC | 0.93 |
| 二阶段寿命分类 | 随机森林 | AUC | 0.95 |

### IV-E 异常检测结果

在异常检测任务上,孤立森林在测试集上实现了AUROC=0.88,在固定5%假阳性率下真正例率为0.72。自动编码器方法表现相似(AUROC=0.86)。这表明异常子类型足够独特,可以被标准异常检测方法发现。

### IV-F 异常子类型分类结果

在辅助异常子类型分类任务中,随机森林分类器达到了84%的准确率,每个子类型的F1分数在0.80到0.89之间。`temporal_warp`子类型是最可区分的(F1=0.89),而`calibration_drift`和`periodic_inference`更相似(F1分别为0.80和0.82)。

## V 伦理声明

MagBridge-Battery v1.0是一个合成数据集,旨在促进磁传感电池诊断方法的开发。它不包含任何可识别的个人数据。上游来源(OSF磁强测量档案和PulseBat数据集)均经其各自的许可授权;我们的发布版本不重新分发任何原始上游数据。我们没有理由相信此数据集会带来伦理风险。相反,通过使基准测试对更广泛的研究社区可用,我们预期该数据集将通过改进电池健康诊断方法,对可持续性和能源存储产生积极影响。

## VI 结论

我们发布了MagBridge-Battery v1.0,一个包含6,760个合成磁信号的公共数据集,这些信号桥接了来自OSF档案的真实电池磁形态与来自PulseBat数据集的退化标签。数据集被组织成三个来源(接地、异常、Regime-B外推),具有经过验证的电池不重叠且无泄漏的基准划分。消融实验证实,该数据集非平凡地编码了SOH信息:标签洗牌将SOH回归性能降至接近于零。我们相信这是第一个公开可用的电池磁传感器-退化配对数据集,并期望它能加速磁传感电池诊断领域的方法开发。我们欢迎社区的贡献和报告,以不断改进此资源。

相似文章

BatteryMFormer:多层级学习用于电池退化轨迹预测

arXiv cs.AI

本文提出了BatteryMFormer,一种用于早期电池退化轨迹预测的多层级Transformer,它集成了老化条件感知解码、元退化模式记忆和双视角编码,以捕捉多层级退化结构和SOC局部变化,在四个电池领域上持续优于最先进的基线方法。

元认知监测电池:LLM自我监测的跨域基准

arXiv cs.CL

一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。