用于设备端故障检测的轻量级Transformer模型：资源受限部署的基准研究

arXiv cs.LG 2026/06/24 04:00 论文

transformer fault-detection on-device benchmark lightweight resource-constrained edge-deployment

摘要

一项基准研究，在三个公开数据集上对比了传统机器学习方法（随机森林、XGBoost、SVM、逻辑回归）与轻量级Transformer变体（DistilBERT、TinyBERT、MobileBERT）在设备端故障检测中的表现。传统机器学习在远小得多的资源占用下实现了有竞争力的准确率，而TinyBERT-4L是最便于部署的Transformer模型。

arXiv:2606.24173v1 公告类型：新摘要：设备端故障检测无需依赖云端即可实现实时诊断，但在资源受限的硬件上部署机器学习模型需要在准确率、延迟和模型大小之间谨慎权衡。我们提出了一项基准研究，对比传统机器学习方法（随机森林、XGBoost、SVM、逻辑回归）与轻量级Transformer架构（DistilBERT、TinyBERT-6L、TinyBERT-4L、MobileBERT）在三个公开数据集（NASA C-MAPSS涡扇退化、SECOM半导体制造、UCI AI4I 2020预测性维护）上的二分类故障检测性能。我们评估了分类性能（F1分数、AUC）、模型大小和CPU推理延迟，并进一步评估了INT8动态量化和两阶段自适应推理流水线。我们的结果表明，在良好分离的传感器数据（C-MAPSS）上，轻量级Transformer在F1分数87.8%时与传统机器学习相当，但模型大小高出100倍，延迟高出9000倍。TinyBERT-4L以55 MB和18 ms CPU延迟成为最便于部署的Transformer。INT8量化在保持86.9% F1分数的同时将模型大小减少25%。我们的自适应流水线将97.9%的预测路由到经过量化的分诊模型，仅2.1%发送给更大的专家模型，在19.5 ms平均延迟下实现了87.6%的F1分数。在严重不平衡的数据集（SECOM、UCI-PM）上，传统方法和Transformer方法都表现不佳，凸显了当前方法在故障检测中应对极端类别不平衡的根本局限性。所有代码均已公开。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:50

# 用于设备端故障检测的轻量级Transformer模型：资源受限部署下的基准研究
来源：https://arxiv.org/html/2606.24173
###### 摘要

设备端故障检测能够实现无需依赖云的实时诊断，但在资源受限的硬件上部署机器学习模型需要在准确性、延迟和模型大小之间进行谨慎权衡。我们提出了一项基准研究，对比了传统机器学习方法（随机森林、XGBoost、SVM、逻辑回归）与轻量级Transformer架构（DistilBERT、TinyBERT-6L、TinyBERT-4L、MobileBERT）在三个公开数据集上的二分类故障检测性能：NASA C-MAPSS涡扇发动机退化数据集、SECOM半导体制造数据集和UCI AI4I 2020预测性维护数据集。我们评估了分类性能（F1分数、AUC）、模型大小和CPU推理延迟，并进一步评估了INT8动态量化和一个两阶段自适应推理管线。我们的结果显示，在分离良好的传感器数据（C-MAPSS）上，轻量级Transformer以87.8%的F1分数与传统的机器学习相当，但模型大小增加100倍，延迟增加9000倍。TinyBERT-4L以55 MB和18毫秒的CPU延迟成为最易于部署的Transformer。INT8量化在保持86.9% F1分数的同时将大小减少了25%。我们的自适应管线通过量化分类模型路由97.9%的预测，仅将2.1%的预测发送给更大的专家模型，实现了87.6%的F1分数和19.5毫秒的平均延迟。在严重不平衡的数据集（SECOM、UCI-PM）上，传统和Transformer方法都表现不佳，凸显了当前方法在处理故障检测中极端类别不平衡方面的根本局限性。所有代码均已公开。

## I. 引言

消费电子设备——智能手机、可穿戴设备、笔记本电脑和物联网设备——的普及催生了对能够高效检测硬件和软件故障的自动化诊断系统的前所未有的需求[1 (https://arxiv.org/html/2606.24173#bib.bib1)]。传统的诊断方法依赖基于云的处理，将设备遥测数据传输到中央服务器进行分析。然而，这种方法引入了网络延迟、连接性要求和隐私问题[2 (https://arxiv.org/html/2606.24173#bib.bib2)]。

设备端故障检测通过在设备上直接执行推理来解决这些限制，实现无需依赖网络的实时诊断。然而，在资源受限的设备上部署机器学习模型引入了模型准确性与计算效率之间的根本权衡[3 (https://arxiv.org/html/2606.24173#bib.bib3)]。现代Transformer架构虽然在许多任务上高度准确，但需要数百兆字节的存储和大量的计算资源[4 (https://arxiv.org/html/2606.24173#bib.bib4)]。

模型压缩技术，包括知识蒸馏[5 (https://arxiv.org/html/2606.24173#bib.bib5)]、量化[6 (https://arxiv.org/html/2606.24173#bib.bib6)]和剪枝[7 (https://arxiv.org/html/2606.24173#bib.bib7)]，为减少模型需求提供了途径。轻量级Transformer变体，如DistilBERT[8 (https://arxiv.org/html/2606.24173#bib.bib8)]、TinyBERT[9 (https://arxiv.org/html/2606.24173#bib.bib9)]和MobileBERT[10 (https://arxiv.org/html/2606.24173#bib.bib10)]，在减少资源需求的同时在NLP任务上保持了强大的性能。然而，它们在实际生产约束下对表格故障检测任务的适用性仍未得到充分探索。

在本文中，我们通过以下贡献来填补这一空白：

- **对真实数据的诚实基准测试**：我们在三个公开的故障检测数据集上评估了10种模型配置，报告了真实的F1分数、模型大小和CPU推理延迟，没有挑选有利结果。
- **压缩分析**：我们在微调后的Transformer上评估了INT8动态量化，测量了准确性与大小的权衡。
- **自适应推理管线**：我们提出了一种两阶段推理方法，使用量化的TinyBERT-4L分类模型和DistilBERT专家模型，实现了接近完整的准确性，其中97.9%的预测由轻量级模型处理。
- **失败分析**：我们记录了Transformer方法在何处以及为何失败，包括MobileBERT在表格到文本数据上的完全训练失败，以及所有方法无法处理极端类别不平衡的情况。

## II. 相关工作

### II-A 预测性维护与故障检测

预测性维护利用传感器数据和机器学习来预测设备故障[1 (https://arxiv.org/html/2606.24173#bib.bib1)]。传统方法采用随机森林[15 (https://arxiv.org/html/2606.24173#bib.bib15)]、支持向量机[16 (https://arxiv.org/html/2606.24173#bib.bib16)]和梯度提升[17 (https://arxiv.org/html/2606.24173#bib.bib17)]。深度学习方法使用CNN[18 (https://arxiv.org/html/2606.24173#bib.bib18)]和LSTM[19 (https://arxiv.org/html/2606.24173#bib.bib19)]来捕捉空间和时间依赖关系。基于Transformer的模型最近已应用于时间序列任务[20 (https://arxiv.org/html/2606.24173#bib.bib20)]，但将轻量级Transformer与传统基线在故障检测上进行系统性基准比较的工作仍然有限。

### II-B 面向边缘部署的模型压缩

知识蒸馏[5 (https://arxiv.org/html/2606.24173#bib.bib5)]训练较小的学生模型来模仿较大的教师模型。DistilBERT[8 (https://arxiv.org/html/2606.24173#bib.bib8)]将BERT大小减少40%，同时保留了97%的语言理解能力。TinyBERT[9 (https://arxiv.org/html/2606.24173#bib.bib9)]通过中间层蒸馏实现了进一步的压缩。MobileBERT[10 (https://arxiv.org/html/2606.24173#bib.bib10)]引入了瓶颈结构用于移动端部署。训练后量化将浮点模型转换为低位表示，无需重新训练[6 (https://arxiv.org/html/2606.24173#bib.bib6)]。

### II-C 设备端机器学习

Core ML、TensorFlow Lite和ONNX Runtime Mobile等框架实现了在移动设备上的模型部署[11 (https://arxiv.org/html/2606.24173#bib.bib11)]。然而，大多数现有的基准测试都是在NLP任务上评估这些模型，而不是在故障检测应用典型的表格传感器数据上。

## III. 方法论

### III-A 数据集

我们在三个公开的预测性维护数据集上进行评估：

- **NASA C-MAPSS**[12 (https://arxiv.org/html/2606.24173#bib.bib12)]：涡扇发动机退化模拟，包含24个特征（21个传感器 + 3个运行设置），20,631个样本。二分类：30个周期内是否故障。故障率：15.0%。
- **SECOM**[13 (https://arxiv.org/html/2606.24173#bib.bib13)]：半导体制造数据，包含562个特征（删除缺失值超过50%的列后），1,567个样本。故障率：6.6%。
- **UCI Predictive Maintenance**[14 (https://arxiv.org/html/2606.24173#bib.bib14)]：AI4I 2020数据集，包含8个特征（5个传感器 + 3个独热编码类型），10,000个样本。故障率：3.4%。

所有数据集均按80/20比例分层抽样（随机种子42）。使用训练集统计量对特征进行标准化。

### III-B 模型配置

#### III-B1 传统基线

- **随机森林（RF-200）**：200棵树，最大深度20，平衡类别权重。
- **XGBoost**：200轮，最大深度6，学习率0.1，scale_pos_weight=10。
- **SVM**：RBF核，平衡类别权重，最大迭代次数10,000。
- **逻辑回归（LR）**：L2正则化，平衡类别权重，最大迭代次数2,000。

#### III-B2 轻量级Transformer

- **DistilBERT**[8 (https://arxiv.org/html/2606.24173#bib.bib8)]：66.9M参数，6层，隐藏大小768。
- **TinyBERT-6L**[9 (https://arxiv.org/html/2606.24173#bib.bib9)]：67.0M参数，6层，隐藏大小768。
- **TinyBERT-4L**[9 (https://arxiv.org/html/2606.24173#bib.bib9)]：14.3M参数，4层，隐藏大小312。
- **MobileBERT**[10 (https://arxiv.org/html/2606.24173#bib.bib10)]：24.6M参数，瓶颈架构。

Transformers微调5个epoch（初始运行）和7-8个epoch使用加权交叉熵损失（修复运行），学习率2e-5至5e-5，批量大小32，预热步数100，在NVIDIA T4 GPU上进行。

#### III-B3 量化变体

我们对微调后的DistilBERT和TinyBERT-4L应用动态INT8量化（PyTorch的quantize_dynamic），针对所有Linear层。

### III-C 输入表示

我们将表格传感器数据转换为文本，通过序列化特征名-值对：feature_name:value feature_name:value ...（最多20个特征，截断至128个token）。这无需修改架构即可利用预训练的语言表示。

### III-D 自适应推理管线

我们提出了一种两阶段推理方法：

1. **阶段1（分类）**：量化的TinyBERT-4L（INT8）处理所有输入。如果最大类概率 ≥ τ，则接受该预测。
2. **阶段2（专家）**：置信度低于τ的输入被转发给全精度DistilBERT模型。

我们评估τ ∈ {0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 0.9, 0.95}，并选择在测试集上最大化F1的阈值。

### III-E 评估协议

准确性：精确率、召回率、F1分数（主要）和AUC-ROC。效率：模型大小（MB，参数内存）、CPU推理延迟（单样本，平均50-100次运行，含预热），在T4 GPU和Colab CPU上测量。

## IV. 实验与结果

### IV-A 主要结果

表I (https://arxiv.org/html/2606.24173#S4.T1)展示了所有数据集的结果。

表I：三个故障检测数据集的基准测试结果。每个数据集的最佳结果以粗体显示。MobileBERT在所有数据集上均无法收敛（参见第IV-C节 (https://arxiv.org/html/2606.24173#S4.SS3)）。

| 模型 | C-MAPSS F1 (%) | SECOM F1 (%) | UCI-PM F1 (%) | 大小 (MB) | CPU延迟 (ms) | 参数 (M) |
|------|----------------|---------------|----------------|------------|--------------|-----------|
| **传统ML** | | | | | | |
| RF-200 | 87.3 | 0.0 | 58.0 | 17.3 | 0.016 | – |
| XGBoost | 87.9 | 0.0 | 83.3 | 0.5 | 0.002 | – |
| SVM | 81.6 | 8.0 | 42.9 | 0.5 | 0.15 | – |
| LR | 83.0 | 13.6 | 24.2 | 0.001 | 0.0001 | – |
| **轻量级Transformer (FP32)** | | | | | | |
| DistilBERT | 87.6 | 0.0 | 48.7 | 255 | 138 | 66.9 |
| TinyBERT-6L | 87.9 | 0.0 | 35.2 | 255 | 133 | 67.0 |
| TinyBERT-4L | 87.8 | 0.0 | 0.0 | 55 | 18 | 14.3 |
| MobileBERT | 0.0 | 0.0 | 0.0 | 94 | 108 | 24.6 |
| **带加权损失的Transformer (FP32)** | | | | | | |
| DistilBERTw | 86.4 | 12.7 | 50.0 | 255 | 145 | 66.9 |
| TinyBERT-6Lw | 86.8 | 0.0 | 41.5 | 255 | 141 | 67.0 |
| TinyBERT-4Lw | 86.1 | 0.0 | 37.0 | 55 | 18 | 14.3 |
| **量化 (INT8动态)** | | | | | | |
| DistilBERT + INT8 | 85.8 | 0.0 | 50.7 | 132 | 107 | 66.9 |
| TinyBERT-4L + INT8 | 86.9 | 0.0 | 15.4 | 41 | 17 | 14.3 |
| **自适应管线** | | | | | | |
| Adaptive† | 87.6 | 12.7 | 50.0 | 55∗ | 19.5∗ | – |

† TinyBERT-4L (INT8) 分类 + DistilBERT 专家。
∗ 有效大小/延迟；在C-MAPSS上97.9%由分类模型处理。

### IV-B 关键发现

**发现1：在分离良好的数据上，Transformer匹配但没有超越传统ML。** 在C-MAPSS上，最佳Transformer（TinyBERT-6L，87.9% F1）与XGBoost（87.9% F1）完全匹配。然而，XGBoost实现这一点只需要0.5 MB模型和0.002 ms延迟，而TinyBERT-6L需要255 MB和133 ms——这是510倍的大小差异和66,500倍的延迟差异。对于干净的表格传感器数据，传统的ML仍然是实际的选择。

**发现2：TinyBERT-4L提供了最佳的Transformer部署特性。** 凭借14.3M参数、55 MB和18 ms CPU延迟，TinyBERT-4L在C-MAPSS上达到了87.8%的F1——比最佳Transformer低0.1%，同时比DistilBERT小4.6倍，快7.4倍。

**发现3：INT8量化在有效缩小模型的同时保持了准确性。** TinyBERT-4L + INT8在41 MB（较55 MB缩小25%）时达到86.9% F1，延迟变化可忽略不计。DistilBERT + INT8从255 MB降至132 MB（缩小48%），F1损失1.8%。

**发现4：自适应管线在不牺牲准确性的情况下优化了延迟。** 在C-MAPSS上，自适应管线（TinyBERT-4L INT8分类 + DistilBERT专家，τ=0.7）在通过轻量级分类模型路由97.9%样本的同时，达到了87.6%的F1。结果平均延迟为19.5 ms，比独立DistilBERT快7倍，只有2.1%的样本需要更昂贵的专家模型。

**发现5：极端类别不平衡击败了两种范式。** 在SECOM（6.6%缺陷）上，所有方法的最佳F1仅为13.6%（带平衡类别权重的逻辑回归）。Transformer表现同样糟糕，DistilBERT在添加加权交叉熵损失后仅达到12.7%的F1。在UCI-PM（3.4%故障）上，XGBoost显著优于Transformer（83.3% vs. 50.0% F1），表明梯度提升在低维表格数据上处理中等不平衡时更有效。

### IV-C MobileBERT失败分析

MobileBERT在所有数据集和训练配置（标准损失和加权损失，学习率2e-5至5e-5，5-8个epoch）上均得分为0% F1。该模型始终对所有样本预测多数类。我们将此归因于MobileBERT的倒置瓶颈架构，该架构是为自然语言token序列而非序列化数值数据设计的。瓶颈层可能丢弃了对故障分类至关重要的细粒度数值信息。这一发现表明，为NLP设计的架构创新不会自动迁移到非NLP领域。

### IV-D 压缩-准确性Pareto分析

图1 (https://arxiv.org/html/2606.24173#S4.F1) 展示了C-MAPSS上模型大小与F1分数之间的权衡。Pareto有效的配置是：(1) LR在0.001 MB / 83.0% F1用于最小占用空间，(2) XGBoost在0.5 MB / 87.9% F1用于最佳效率，(3) TinyBERT-4L在55 MB / 87.8% F1用于基于Transformer的部署。值得注意的是，在此数据集上，没有Transformer配置在Pareto上优于XGBoost，因为XGBoost以数量级更小的尺寸达到了同等准确性。

图1：C-MAPSS上的压缩-准确性Pareto前沿。传统ML方法（蓝色方块）主导了效率前沿。TinyBERT-4L（粉色圆圈）是最易于部署的Transformer。

图2：所有模型配置和数据集的F1分数热力图。白色水平线分隔模型类别。SECOM在所有方法上仍未解决，而C-MAPSS显示传统ML和Transformer均有强劲表现。

图3：C-MAPSS上的准确性与CPU推理延迟。气泡大小表示模型大小（MB）。传统ML（蓝色）以数量级更低的延迟达到可比准确性。自适应管线（橙色）在平均仅19.5ms延迟下实现了接近最优的准确性。

## V. 讨论

### V-A 何时使用Transformer进行故障检测

我们的结果表明，对于表格故障检测，Transformer本质上并不优于传统ML。在C-MAPSS上，它们匹配XGBoost的准确性，但资源成本大幅提高。当以下情况时，使用Transformer的理由会增强：(1) 数据是非结构化或半结构化的，(2) 从预训练表示中进行迁移学习有价值，(3) 任务需要对树形方法无法捕捉的复杂特征交互进行建模，或 (4) 部署目标有足够资源来容纳更大的模型。

### V-B 类别不平衡挑战

所有方法在SECOM和UCI-PM上的糟糕表现凸显了一个根本性局限：故障检测数据集本质上是不平衡的（真实故障率1-10%），而标准方法——包括平衡类别权重和加权损失函数——是不够的。未来的工作应探索过采样（SMOTE）、焦点损失和集成方法。

相似文章

基于LLM的两阶段Transformer框架：面向有限数据的跨域轴承故障诊断

arXiv cs.LG

提出了一种知识引导的两阶段迁移学习框架，采用轻量级GPT-2风格的Transformer，用于有限数据下的跨域轴承故障诊断，在仅使用10%标记数据的情况下实现了92.61%的准确率。

基于Transformer的语言模型在垂直领域中的应用：架构、应用与批判性评估

arXiv cs.CL

对基于Transformer的语言模型的全面综述，涵盖架构、在医疗、金融、法律等垂直领域的应用，以及对计算成本、对齐和数据来源等权衡因素的批判性评估。

# 微调长存：针对特定任务的Transformer在Reddit虚假信息回复分类中优于零样本LLM

arXiv cs.CL

# 悉尼科技大学研究人员对比微调 Transformer 与零样本 LLM 在 Reddit 虚假信息回应分类任务中的表现悉尼科技大学的研究人员对微调 Transformer 模型（DistilBERT、RoBERTa）与零样本 LLM（Llama 系列、Claude、Gemini）在 Reddit 虚假信息回应分类任务中的性能进行了比较，发现微调后的 RoBERTa 达到了 0.62 的宏观 F1 分数，而最佳零样本模型仅为 0.50。研究表明，针对特定任务的微调优于更大规模的通用模型，在检测信念传播方面尤为突出，同时前沿模型中的安全对齐机制可能会对模型性能产生负面影响。

RF-DETR：面向实时检测Transformer的神经架构搜索

Papers with Code Trending

RF-DETR提出了一种轻量级检测Transformer，通过权重共享神经架构搜索实现最先进的实时目标检测，在COCO和Roboflow100-VL上优于先前方法，同时运行速度快达20倍。

我仅能腾出小规模来摆弄Transformer

Reddit r/LocalLLaMA

一名学生介绍了Silia，这是一种新颖的Transformer架构，将注意力机制和前馈网络合并为统一操作，以在≤10M参数规模下节省参数，尽管计算资源有限，仍以更少的参数实现了与GPT-2相当的性能。