VFEAgent: 一种用于端到端自动化有限元分析的多模态智能体框架

arXiv cs.AI 论文

摘要

本文提出了VFEAgent,一种通过将视觉语言模型与验证优先的代码合成框架相结合来自动化有限元分析的多智能体系统,实现了从图像和问题描述到端到端模拟。

arXiv:2605.28978v1 Announce Type: new Abstract: 有限元分析(FEA)是现代工程设计的基石。尽管近期的工作已将大语言模型(LLMs)集成到FEA中,但现有方法在处理多模态输入和执行复杂任务方面仍面临局限性。为解决这些局限性,我们提出了VFEAgent,一种端到端的多智能体系统,旨在直接从输入图像和问题描述自动化FEA建模和模拟。我们的方法集成了两个核心组件:(1)一个多模态视觉-语言多智能体流水线,采用ReAct驱动的推理从异构输入中提取结构化的FEA规范;(2)一个验证优先的代码合成框架,结合了强大的自调试和回退机制,以确保可执行性和物理有效性。我们在多个工程力学场景中系统评估了该系统。结果表明,VFEAgent在生成完整且物理有效的模拟方面取得了较高成功率,在可靠性和正确性上优于基于LLM的基线方法。这些发现验证了自动化完整FEA工作流程的可行性,凸显了该框架将工程师从繁琐的手动分析中解放出来的潜力。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:11

# 用于端到端自动化有限元分析的多模态智能体框架
来源:https://arxiv.org/html/2605.28978
Junyi Lao1,∗ Chenghao Liu1 Siyuan Liu1 Shixin Wu1 Linsen Zhang1 Boyu Wang1 & Songfang Huang1,† 1北京大学 2中国农业大学

###### 摘要

有限元分析 (FEA) 是现代工程设计的基石。然而,其工作流程本质上复杂且高度依赖领域专业知识。尽管最近有工作将大语言模型 (LLM) 集成到 FEA 中,但现有方法在处理多模态输入和执行复杂任务方面仍存在局限性。为了解决这些限制,我们提出了 VFEAgent,一个端到端的多智能体系统,旨在直接从输入图像和问题描述中自动化 FEA 建模和仿真。

我们的方法整合了两个核心组件:(1) 一个多模态视觉-语言多智能体流水线,采用 ReAct 驱动的推理从异构输入中提取结构化 FEA 规范;(2) 一个验证优先的代码合成框架,结合了强大的自调试和回退机制,以确保可执行性和物理有效性。我们系统地评估了该系统在各种工程力学场景下的表现。结果表明,VFEAgent 在生成完整且物理有效的仿真方面取得了很高的成功率,在可靠性和正确性上优于基于 LLM 的基线方法。这些发现验证了自动化完整 FEA 工作流程的可行性,突显了该框架将工程师从繁琐的手动分析中解放出来的潜力。

00footnotetext:\*这些作者对本文贡献相同。00footnotetext:†\\dagger通讯作者 邮箱地址:[email protected]## 1 引言

结构工程分析是确保大型基础设施、航空航天器和复杂机械组件安全性和可靠性的基石,直接决定了工程决策的科学有效性。作为计算力学的主要方法,有限元分析 (FEA) 通过将连续介质离散化为数值单元,从根本上改变了结构分析的范式 (Liu 等, 2022 (https://arxiv.org/html/2605.28978#bib.bib27))。然而,尽管当代计算引擎功能强大,当前的 FEA 工作流程仍然以高经验依赖性和密集的人机交互为特征 (Sahani, 2025 (https://arxiv.org/html/2605.28978#bib.bib17))。这要求专家工程师手动连接工程图纸、几何建模和物理环境配置之间的鸿沟 (Azanaw, 2025 (https://arxiv.org/html/2605.28978#bib.bib28))。这样的过程不仅劳动密集、耗时,而且在繁琐的参数配置和拓扑处理过程中极易出现人为错误 (Shah 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib29))。在现代工程要求高频迭代的背景下,这种对人工操作的过度依赖限制了数字设计与智能制造的深度融合。

大语言模型 (LLM) 和视觉-语言模型 (VLM) 的快速崛起为自动化 FEA 流程提供了变革性的机会 (Baker 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib19))。通过利用主流商业软件的脚本接口 (例如 Abaqus 脚本接口/API),多智能体系统 (MAS) 理论上可以将高层工程意图转化为精确的指令序列 (Ni 和 Buehler, 2024 (https://arxiv.org/html/2605.28978#bib.bib12); Hong 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib32))。尽管如此,现有 AI 集成 FEA 框架存在三个关键限制,阻碍了其实用性 (Sahani, 2025 (https://arxiv.org/html/2605.28978#bib.bib17))。最基本的是,现有工作主要依赖硬编码的流水线或预设的知识库。这些系统并非执行真正的新建几何构造,而是通过将参数填充到从预定义库中检索到的原型中,执行“伪建模” (Qi 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib5))。这种模板匹配方法无法满足绝大多数实际设计需求,这些需求要求对非固定操作条件下的非标准结构进行精确、定制的参数化表示 (Göpfert 等, 2023 (https://arxiv.org/html/2605.28978#bib.bib18))。更复杂的是,当前的智能体通常是“视觉盲”的。通过使用预处理的结构化文本或网格作为输入,它们绕过了 FEA 中最具挑战性的阶段——原始蓝图的解读,从而丢失了高保真的语义信息 (Khan 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib20))。此外,反馈机制仍然不成熟。现有的调试策略主要局限于浅层语法错误,缺乏识别隐含物理逻辑差异的能力,或形成一种集成了长期经验和短期反射的闭环自修复能力 (Ghorbani 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib26); Shinn 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib31))。

参见图注图1: VFEAgent 自动将工程图纸转化为经过验证的有限元仿真结果。为了解决这些空白并探索 AI 在自主工程中的深远潜力,我们提出了 VFEAgent,一个在商业软件 Abaqus 上验证的端到端框架 (Hou 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib11))。VFEAgent 是第一个能够将原始工程图纸转化为可执行仿真脚本和计算结果的自主 FEA 框架 (Qi 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib5))。该系统由两个协同组件驱动:FEM\_VLM\_MAS,它采用 ReAct 驱动的分层感知策略来解析蓝图;以及 Text2Abaqus,一个由 LLM 驱动的引擎,负责生成和执行仿真脚本 (Ni 和 Buehler, 2024 (https://arxiv.org/html/2605.28978#bib.bib12); Yao 等, 2023 (https://arxiv.org/html/2605.28978#bib.bib30); Wei 等, 2022 (https://arxiv.org/html/2605.28978#bib.bib33))。与之前的伪建模尝试不同,VFEAgent 将视觉信号解码为结构化的工程语义,并从零开始合成模型 (Khan 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib21))。为了弥补专业评估的空白,我们进一步引入了一个分级、专家策划、视觉增强的基准,包含 15 个复杂案例——涵盖不对称钢框架、梁拓扑优化、压力容器和超材料——用于评估核心物理量,如 Mises 应力、模态频率、加速度和应变能 (Mohammadzadeh 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib9))。本文的主要贡献如下:

- •实现首个真正端到端的 FEA 多智能体系统。与基于检索的伪建模不同,VFEAgent 实现了全流程自主——从原始图像输入到几何构建、物理求解和后处理——展现出对非标准、复杂工业场景的强大通用性。
- •分层感知机制。通过模拟专家习惯,FEM\_VLM\_MAS 系统利用多层次提取策略解码工程图纸。它从数值和节点逐步解码到载荷分布和连接关系,实现从视觉信号到结构化工程语义的精确转换。
- •自愈脚本生成引擎。通过引入融合短期反射和长期记忆的调试器,Text2Abaqus 系统能够闭环纠正语法错误和物理逻辑偏差,显著提升自主仿真的可靠性。
- •发布分级固体力学评估框架。我们提供了一个经专家验证、视觉增强的基准,包含复杂物理场景和多维度量。该框架作为评估大模型工程设计思维和约束处理能力的定量基线。

## 2 相关工作

### 2.1 与 LLM 集成的 FEA

早期关于将大语言模型 (LLM) 集成到有限元分析 (FEA) 中的研究主要集中在自动化仿真生命周期的各个阶段以减少人工劳动。在几何和网格划分方面,NekMesh (Green 等, 2024 (https://arxiv.org/html/2605.28978#bib.bib1)) 引入了一个独立的 CAD 框架,用于使用变体解缠和八叉树自适应采样进行高阶网格生成。对于专家级决策支持,Gembarski (2020 (https://arxiv.org/html/2605.28978#bib.bib2)) 提出了一个多智能体系统 (MAS),模拟专家协商以识别模型特征和制造约束。最近,像 FRAME (Guru 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib3)) 和 Tian 等人的工作 (Tian 和 Zhang, 2024 (https://arxiv.org/html/2605.28978#bib.bib4)) 探索了“自优化”工作流程,识别诸如应力集中等物理问题,并自动触发几何修改。然而,这些部分助手通常需要结构化输入和人工干预来弥合不同仿真阶段之间的鸿沟。

参见图注图2: VFEAgent 的神经符号架构。该框架通过两个耦合阶段弥合视觉图表与物理仿真之间的语义鸿沟:(A) 感知,采用多智能体 ReAct 系统提取与求解器无关的中间表示 (IR);(B) 合成,包含一个验证驱动的循环,集成了基于 AST 的预检查、反射式调试和确定性移交协议,以确保可执行性。该领域最近已发展到端到端的自主智能体,能够编排完整的“几何-网格-仿真-分析”(GMSA) 流水线。MechAgents (Ni 和 Buehler, 2024 (https://arxiv.org/html/2605.28978#bib.bib12)) 利用角色扮演智能体使用 FEniCS 解决弹性问题,而 FeaGPT (Qi 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib5)) 实现了首个由自然语言驱动的对话式 GMSA 流水线。此外,Geng 等人 (2025 (https://arxiv.org/html/2605.28978#bib.bib7)) 提出了一个轻量级 MAS 框架,通过将结构分析解耦为专门任务来自动化 2D 框架建模。在流体力学方面,ChatCFD (Fan 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib6)) 利用结构推理来纠正可压缩流中的复杂耦合错误。尽管取得了这些进展,现有框架仍通过“伪建模”策略启发式地绕过了核心挑战。诸如 MooseAgent (Zhang 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib8)) 和 AutoFEA (Hou 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib11)) 等系统严重依赖检索增强生成 (RAG) 来填充预定义模板中的参数,而不是执行真正的新建构造。此外,这些模型在很大程度上仍然是“视觉盲”的,绕过了原始工程蓝图的关键解读,并且在处理深层物理逻辑(如非线性塑性)时存在困难。

### 2.2 评估基准

评估基准同样落后于自主工程的需求。当前的基准主要侧重于商业 API 操作(例如 FEABench (Mudur 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib13)))或底层数学实现(例如 FEM-BENCH (Mohammadzadeh 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib9)))。虽然 EngDesign (Guo 等, 2025 (https://arxiv.org/html/2605.28978#bib.bib10)) 引入了设计思维指标,但其结构任务仅限于理想化的 2D 几何体,例如简单的桁架或矩形梁。总体而言,现有基准缺乏对非标准工业拓扑的覆盖,并且未能评估解析原始图纸所需的视觉推理能力。此外,它们通常关注代码语法而非高保真物理场分布,例如模态频率或应变能。因此,在通过合成代码测试和解决真实世界的、视觉增强的工程问题之间仍然存在差距。

## 3 方法论

### 3.1 问题形式化

我们将自动化 FEA 建模任务定义为一个从多模态输入元组 \(\mathcal{X} = (I, T_{ctx})\) 到有效物理响应场 \(\mathcal{R}\) 的映射。这里,\(I\) 表示结构图,\(T_{ctx}\) 包含文本约束(例如材料属性、载荷大小)。为了确保物理有效性和软件无关性,我们将这个端到端过程分解为一个中间接地状态 \(Y\):

\[\mathcal{X} \xrightarrow{\phi_{\text{perc}}} Y \xrightarrow{\phi_{\text{syn}}} S \xrightarrow{\text{Solver}} \mathcal{R} \qquad (1)\]

其中 \(Y = (\mathcal{G}, \mathcal{M}, \mathcal{BC}, \mathcal{L})\) 表示一个由严格模式强制的、与求解器无关的中间表示 (IR)。具体来说,\(\mathcal{G} = \{V, E\}\) 表示几何拓扑(节点和连接),\(\mathcal{M}\) 指定材料截面,而 \(\mathcal{BC}\) 和 \(\mathcal{L}\) 定义了映射到 \(\mathcal{G}\) 的边界条件和载荷向量。\(S\) 是从 \(Y\) 生成的可执行仿真脚本(例如 Abaqus Python)。

### 3.2 系统架构

VFEAgent 框架通过两个耦合模块实现了映射 \(\phi_{\text{perc}}\) 和 \(\phi_{\text{syn}}\)。阶段 A (FEM\_VLM\_MAS) 采用多智能体 ReAct 系统,从视觉输入实例化 \(Y\)。阶段 B (Text2Abaqus) 实现了一个验证驱动的合成循环,并带有一个神经符号移交协议,以确保 \(S\) 的可执行性。

### 3.3 阶段 A: ReAct 驱动的语义感知

##### 多智能体编排。

我们将复杂的视觉推理任务分解为四个专门角色:(1) 用于 OCR 和几何基元检测的**感知智能体**;(2) 用于推断拓扑连接和组件类型的**推理智能体**;(3) 用于审计模式一致性的**验证智能体**;(4) 用于全局规划的**编排器**。编排器维护一个动态信念状态 \(B_t\) 并执行决策循环:\(a_t = \pi(B_t, \text{Prompt}_{ctx})\),其中动作 \(a_t\) 包括调用子智能体或更新模式。

#### 3.3.1 视觉感知机制

##### 端到端直接推理。

与依赖中间预处理(例如 Canny 边缘检测或网格叠加)的流水线方法不同,我们的感知智能体直接将原始工程图输入到 VLM 中。这种端到端策略利用模型内部的世界知识来解决视觉歧义——例如区分“尺寸线”和“结构梁”——而启发式计算机视觉算法常常会将这些混淆。

##### 约束感知坐标估计。

从物理角度来看,从未缩放的栅格图像中提取精确坐标是病态问题。VFEAgent 通过一种**语义估计**策略来解决这个问题。当存在尺寸标注时,VLM 推断像素到公制的比例以建立全局坐标系。在没有明确尺寸的情况下,系统采用先验

相似文章

迈向虚拟细胞中的自主机制推理

Hugging Face Daily Papers

本文介绍了VCR-Agent,一个多智能体框架,通过结构化形式化和VC-TRACES数据集生成并验证机制性解释,从而增强大型语言模型在生物学研究中的应用。该方法通过虚拟细胞中的验证性机制推理,提高了基因表达预测的事实准确性。

VESTA:基于统计工具代理的视觉探索

arXiv cs.AI

本文介绍了VESTA,一个为视觉-语言模型配备动态增长工具包的框架,用于数据探索和统计模型优化,在复杂的科学建模任务上优于先前的基于代理的方法。作者还提出了Dawn基准,用于分布拟合和时间序列建模,涵盖真实的天文学挑战。

基于有限元分析反馈的自我改进CAD生成代理

Hugging Face Daily Papers

本文提出了一种新的CAD生成任务形式,将有限元分析作为反馈,并结合了改进的监督信号,如纯文本蓝图方案和多视角图像渲染器,从而在基准测试中实现了更好的几何重建。