基于大语言模型的物理蒸馏神经网络用于制造过程-属性预测建模

arXiv cs.LG 2026/06/11 04:00 论文

摘要

本文提出了一种新颖框架，利用大语言模型从科学文献中提取解析物理先验知识，并将其蒸馏到一个轻量级神经网络中，即使在数据有限的情况下，也能实现对制造过程-属性的高精度实时预测。

arXiv:2606.11605v1 公告类型：新发布摘要：预测制造过程中过程与属性的关系通常面临实验成本高和复杂“黑箱”模型可解释性有限的挑战。本文提出了一种新颖的知识蒸馏框架，旨在数据稀缺场景下实现高精度预测。该框架将解析物理先验知识（通过大语言模型从科学文献中系统提取）整合到一个特权教师模型中。我们采用图掩码注意力层来捕获输入变量之间复杂的物理依赖关系，这些变量具有严格的设定点或静态与高频时间特征的组合。这种特权知识被蒸馏到一个轻量级学生预测器中用于推理。通过涵盖五个不同制造过程的全面实验，评估了该框架的可行性和鲁棒性。为确保统计可靠性，鉴于数据集规模较小，采用了重复K折交叉验证技术来量化模型的稳定性和泛化能力。结果表明，该框架在所有评估领域均持续实现高预测精度。最重要的是，该架构表现出显著的容错能力，即使在大语言模型导出的解析先验知识欠优或不完整的情况下，也能保持稳健的预测性能。此外，学生预测器实现了超过6000 Hz的推理频率，有助于在标准工业硬件上进行实时边缘部署。这项工作为在数据受限环境下弥合理论物理与实时工业监测之间的差距提供了可扩展的解决方案。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:49

# 基于大语言模型的物理蒸馏神经网络用于制造过程-性能预测建模
来源：https://arxiv.org/abs/2606.11605
查看 PDF (https://arxiv.org/pdf/2606.11605)

> 摘要：制造过程中过程-性能关系的预测常因高昂的实验成本和复杂“黑箱”模型的有限可解释性而面临挑战。本文提出一种新颖的知识蒸馏框架，旨在数据稀缺场景下实现高精度预测。该框架将解析物理先验知识（通过大语言模型从科学文献中系统提取）集成到特权教师模型中。我们采用图掩码注意力层来捕捉输入变量间复杂的物理依赖关系，这些变量表现为严格设定值或静态与高频时序特征的组合。此特权知识被蒸馏到轻量级学生预测器中用于推理。通过在五种不同制造过程中的综合实验，评估了该框架的可行性和鲁棒性。为确保统计可靠性，鉴于数据集规模较小，采用重复K折交叉验证技术来量化模型稳定性和泛化能力。结果表明，所提框架在所有评估领域均能持续获得高预测精度。最重要的是，该架构展现出显著的容错能力，即使在基于大语言模型导出的解析先验知识不完善或不完整的情况下，仍能保持稳健的预测性能。此外，学生预测器的推理频率超过6000 Hz，有助于在标准工业硬件上实现实时边缘部署。本工作为数据有限环境下理论物理与实时工业监测之间的鸿沟提供了可扩展的解决方案。

## 提交历史

来自：Hongyi Xu [view email](https://arxiv.org/show-email/69146324/2606.11605) **[v1]** 2026年6月10日星期三 03:05:42 UTC (1,361 KB)

基于大语言模型的物理蒸馏神经网络用于制造过程-属性预测建模

相似文章

利用具备上下文学习能力的 LLM 进行算法理论物理研究

原生可遗忘的大语言模型

基于物理建模的神经网络

PE-MHL：用于复杂系统可扩展学习的物理编码模块化混合层

大语言模型中的语言习得装置

提交意见反馈