基于大语言模型的物理蒸馏神经网络用于制造过程-属性预测建模
摘要
本文提出了一种新颖框架,利用大语言模型从科学文献中提取解析物理先验知识,并将其蒸馏到一个轻量级神经网络中,即使在数据有限的情况下,也能实现对制造过程-属性的高精度实时预测。
arXiv:2606.11605v1 公告类型:新发布
摘要:预测制造过程中过程与属性的关系通常面临实验成本高和复杂“黑箱”模型可解释性有限的挑战。本文提出了一种新颖的知识蒸馏框架,旨在数据稀缺场景下实现高精度预测。该框架将解析物理先验知识(通过大语言模型从科学文献中系统提取)整合到一个特权教师模型中。我们采用图掩码注意力层来捕获输入变量之间复杂的物理依赖关系,这些变量具有严格的设定点或静态与高频时间特征的组合。这种特权知识被蒸馏到一个轻量级学生预测器中用于推理。通过涵盖五个不同制造过程的全面实验,评估了该框架的可行性和鲁棒性。为确保统计可靠性,鉴于数据集规模较小,采用了重复K折交叉验证技术来量化模型的稳定性和泛化能力。结果表明,该框架在所有评估领域均持续实现高预测精度。最重要的是,该架构表现出显著的容错能力,即使在大语言模型导出的解析先验知识欠优或不完整的情况下,也能保持稳健的预测性能。此外,学生预测器实现了超过6000 Hz的推理频率,有助于在标准工业硬件上进行实时边缘部署。这项工作为在数据受限环境下弥合理论物理与实时工业监测之间的差距提供了可扩展的解决方案。
查看缓存全文
缓存时间: 2026/06/11 13:49
# 基于大语言模型的物理蒸馏神经网络用于制造过程-性能预测建模 来源:https://arxiv.org/abs/2606.11605 查看 PDF (https://arxiv.org/pdf/2606.11605) > 摘要:制造过程中过程-性能关系的预测常因高昂的实验成本和复杂“黑箱”模型的有限可解释性而面临挑战。本文提出一种新颖的知识蒸馏框架,旨在数据稀缺场景下实现高精度预测。该框架将解析物理先验知识(通过大语言模型从科学文献中系统提取)集成到特权教师模型中。我们采用图掩码注意力层来捕捉输入变量间复杂的物理依赖关系,这些变量表现为严格设定值或静态与高频时序特征的组合。此特权知识被蒸馏到轻量级学生预测器中用于推理。通过在五种不同制造过程中的综合实验,评估了该框架的可行性和鲁棒性。为确保统计可靠性,鉴于数据集规模较小,采用重复K折交叉验证技术来量化模型稳定性和泛化能力。结果表明,所提框架在所有评估领域均能持续获得高预测精度。最重要的是,该架构展现出显著的容错能力,即使在基于大语言模型导出的解析先验知识不完善或不完整的情况下,仍能保持稳健的预测性能。此外,学生预测器的推理频率超过6000 Hz,有助于在标准工业硬件上实现实时边缘部署。本工作为数据有限环境下理论物理与实时工业监测之间的鸿沟提供了可扩展的解决方案。 ## 提交历史 来自:Hongyi Xu [view email](https://arxiv.org/show-email/69146324/2606.11605) **[v1]** 2026年6月10日星期三 03:05:42 UTC (1,361 KB)
相似文章
利用具备上下文学习能力的 LLM 进行算法理论物理研究
本文探讨了利用大型语言模型(特别是 Claude)结合计算机代数系统(Maple)来执行理论物理中的算法计算,例如分析宇宙学扰动。
原生可遗忘的大语言模型
该论文提出了NULLs(原生可遗忘的大语言模型),这是一种模型类别,它将特定来源的贡献隔离到稀疏激活的sinks中,同时共享骨干神经元,从而无需重新训练即可干净地遗忘单个数据源,并保持通用语言能力。
基于物理建模的神经网络
本文介绍了动力学物理建模神经网络(DynPMNNs),这是一种连续时间深度学习架构,其中隐藏层由常微分方程定义。该方法基于再生核巴拿赫空间,具有生物启发性,在加州房屋数据集上展现出与标准神经ODE相当的性能,且参数更少。
PE-MHL:用于复杂系统可扩展学习的物理编码模块化混合层
本文提出PE-MHL,一种物理编码模块化混合层框架,通过数据驱动子模型逐步优化基于物理的模型,提供理论收敛保证,并在控制基准测试中优于单一网络。
大语言模型中的语言习得装置
本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。