CAX-Agent: 一种用于可靠APDL自动化的轻量级Agent工具框架

arXiv cs.AI 论文

摘要

CAX-Agent是一种轻量级Agent工具框架,利用大语言模型自动化MAPDL有限元仿真,重点在于恢复策略。评估表明,基于模型的恢复实现了最佳的完成率。

arXiv:2605.15218v1 公告类型: 新 摘要:将大语言模型应用于MAPDL有限元仿真时面临实际可靠性挑战:如果没有结构化的执行控制、工具封装和故障恢复,输出可能不一致,任务失败也很常见。Agent工具框架范式通过插入特定领域的编排中间件来解决这一问题,该中间件管理工具生命周期、工作流状态和恢复升级。本文介绍了CAX-Agent的架构,这是一种专为MAPDL自动化而构建的轻量级Agent工具框架,并对其核心组件之一——恢复策略进行了实证评估。CAX-Agent将执行过程分为三层——LLM服务层、Agent工具框架层和求解器后端层——并配备了一个恢复阶梯,从确定性规则修补开始,逐步升级至模型驱动的重新生成、上下文增强,最终人工干预。我们评估了三种恢复策略(无恢复、仅规则、仅模型),在50个标准结构基准测试上每种策略重复运行三次(共450个案例运行)。两名独立人类评估员在盲测条件下对任务完成情况进行评分;评估员间一致性较强(二次加权Cohen's kappa = 0.84,96%的评分对相差不超过一分)。仅模型策略实现了最佳的完成率(0.9267)、任务得分(3.59/4)、总分(9.16/10)和零干预率(0.84),优于仅规则策略(0.7733、3.17/4、7.03/10、0.00)和无恢复策略(0.6933、2.74/4、5.60/10、0.00),且效应量较大(Cliff's delta = 0.81-0.87)。该基准测试故意采用简单的几何形状以隔离恢复策略的影响;我们讨论了这些发现的范围以及更广泛验证的方向。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:30

# CAX-Agent:一种可靠自动化APDL的轻量级代理框架

来源:https://arxiv.org/html/2605.15218

###### 摘要

大型语言模型在MAPDL有限元仿真应用中面临实际可靠性挑战:缺乏结构化执行控制、工具封装和故障恢复机制时,输出可能不一致,任务失败频繁。代理框架范式通过插入领域特定的编排中间件来管理工具生命周期、工作流状态和恢复升级,从而解决这一问题。本文介绍CAX-Agent的架构——一个专为MAPDL自动化设计的轻量级代理框架,并实证评估其核心组件之一——恢复策略。CAX-Agent将执行组织为三层——LLM服务、代理框架和求解器后端——并采用恢复阶梯策略,从确定性规则修补逐步升级到模型驱动的重新生成,再到上下文丰富化和人工干预。我们在50个标准结构基准测试上评估了三种恢复策略(无恢复、仅规则、仅模型),每种策略执行三次重复运行(总计450个案例运行)。两名独立人类评分者在盲测条件下对任务完成度进行评分;评分者间一致性高(二次加权Cohen's kappa = 0.84,96%的分数对相差不超过1分)。仅模型策略在完成率(0.9267)、任务分数(3.59/4)、总分(9.16/10)和零干预率(0.84)上均表现最佳,显著优于仅规则策略(0.7733, 3.17/4, 7.03/10, 0.00)和无恢复策略(0.6933, 2.74/4, 5.60/10, 0.00),效应量大(Cliff's delta = 0.81–0.87)。基准测试采用刻意简化的几何形状以隔离恢复策略的影响;我们讨论了这些发现的适用范围及更广泛验证的方向。

## I 引言

计算机辅助技术常统称为CAX,其中CAD、CAE和CAM分别代表设计、工程分析和制造规划。在本工作中,实现的流水线仅支持CAD加CAE自动化;CAM执行不在范围内。LLM驱动的有限元仿真需要的不只是准确的代码生成。Transformer架构确立了序列建模的自注意力范式[1 (https://arxiv.org/html/2605.15218#bib.bib1)],深度双向预训练将其扩展到表示学习[2 (https://arxiv.org/html/2605.15218#bib.bib2)]。扩展到1750亿参数使得无需任务特定微调即可进行少量样本学习[3 (https://arxiv.org/html/2605.15218#bib.bib3)],而将推理轨迹与工具使用动作交错则改善了多步骤任务完成[4 (https://arxiv.org/html/2605.15218#bib.bib4)]。这些进展使得使用工具的代码代理成为可能,但在工程仿真中,预处理、求解器执行和后处理必须正确串联,而运行时错误——网格划分失败、收敛问题、结果缺失——即使在结构简单的任务中也很常见。如果没有明确的恢复机制,单个失败就会终止流水线。随着基于LLM的工程代理走向实际应用,如何设计和评估恢复策略成为系统可靠性的核心问题。CAX-Agent是原生为MAPDL设计的,而非适配通用代理框架;其恢复逻辑紧密耦合MAPDL错误日志语法和APDL脚本结构,采用规则优先、模型居次的双重策略,在调用LLM驱动的修复之前先尝试确定性规则修补。

代理框架范式已成为弥补这一差距的核心架构模式。该范式并非期望LLM自行管理执行,而是通过一个框架插入领域特定的编排中间件,整合技能封装、工具编排、工作流检查点、状态管理以及故障诊断与重试升级机制。该中间件提供了LLM自身无法提供的工程骨架。对70个代理系统项目的分析识别出五个反复出现的设计维度——调度器类型、规划能力、恢复机制、上下文管理和实现复杂性——其中代理循环调度器仍占主导地位[5 (https://arxiv.org/html/2605.15218#bib.bib5)]。KAIJU是一个将工具执行与LLM推理解耦的执行内核,采用意图门控执行,展示了这种分离能够强制执行仅靠提示无法匹配的行为保证[6 (https://arxiv.org/html/2605.15218#bib.bib6)]。与此同时,LLM驱动的代理已被应用于多个工程领域。CAD自动化和生成式设计到制造流水线已被探索[7 (https://arxiv.org/html/2605.15218#bib.bib7),8 (https://arxiv.org/html/2605.15218#bib.bib8)],设计结构生成和自认知产品设计系统亦然[9 (https://arxiv.org/html/2605.15218#bib.bib9),10 (https://arxiv.org/html/2605.15218#bib.bib10)]。端到端CFD自动化结合结构化知识和推理已被展示[11 (https://arxiv.org/html/2605.15218#bib.bib11)]。更广泛的综述涵盖了下一代CAE机遇和制造生命周期[12 (https://arxiv.org/html/2605.15218#bib.bib12),13 (https://arxiv.org/html/2605.15218#bib.bib13)],以及工程设计中的视觉语言评估和AI赋能的CAE[14 (https://arxiv.org/html/2605.15218#bib.bib14),15 (https://arxiv.org/html/2605.15218#bib.bib15)];详细讨论延至第二部分。这些工作推动了特定领域的代理能力,但并未在受控、重复且有人类评判结果的条件下评估框架的恢复组件。

本文介绍CAX-Agent——一个轻量级、原生的代理框架,专为机械仿真中的APDL自动化设计。CAX-Agent并非适配通用框架,而是围绕MAPDL执行中观察到的特定失败模式设计:网格划分失败、收敛错误、单元类型不匹配以及后处理结果缺失。其架构将LLM服务、框架编排和求解器后端分为三层,并采用恢复阶梯策略,从确定性规则修补逐步升级到模型驱动的脚本重新生成,再到上下文丰富化,最后以人工干预作为最终退路。编排器——而非LLM——拥有重试预算、工具调度和停止条件的控制权。我们在相同的基准协议下评估了三种恢复策略:无恢复(一次性执行)、仅规则(确定性规则修补)和仅模型(LLM驱动的基于错误日志的条件重新生成,有限次重试)。基准测试使用50个标准结构任务——梁、板和圆柱体,承受静态、模态和热载荷——每种策略执行三次重复运行(总计450个案例运行)。这些任务故意设计得简单。我们的目标并非推动自主仿真的复杂性前沿,而是在基础任务完全处于模型能力范围内的设置中隔离恢复策略设计的效果,从而使得结果差异可归因于恢复策略而非任务难度。我们报告完成行为、多轴评分(人类评估的任务质量加上系统衍生的自主性和效率)以及成对统计检验。在此设置下,仅模型策略实现了最强的可靠性,同时保持了高自主性。我们的贡献包括:(1) CAX-Agent——一个轻量级、MAPDL原生的代理框架,具有三层架构和恢复阶梯,围绕真实MAPDL失败模式设计;(2) 在50个标准化APDL任务上对三种恢复策略进行受控重复运行比较,附盲测人类评分和评分者间验证;(3) 实证证据表明模型驱动的恢复在完成率和零干预率方面均显著优于基于规则的修复,并附带按类型的失败分析,展示残留错误集中何处。图1 (https://arxiv.org/html/2605.15218#S1.F1)展示了CAX-Agent界面的一次代表性端到端执行,描绘了一个对话式模态分析任务,包括自主APDL生成、MAPDL执行和后处理输出。

图1:代表性模态分析运行的端到端UI示例。系统自主生成APDL脚本,在MAPDL中执行,并通过对话界面生成后处理图像。

## II 相关工作

### II-A 基于LLM的工具使用与工程自动化

使用工具的LLM代理越来越将推理轨迹与外部动作相结合,从而实现非平凡的多步骤工作流。这些能力正在被转移到工程信息学领域。Xu等人利用LLM增强的知识图谱方法大幅减少了工艺规划构建时间[16 (https://arxiv.org/html/2605.15218#bib.bib16)],Stathatos等人将高级工艺规划视为GPT-2在分布式制造中的序列预测任务[17 (https://arxiv.org/html/2605.15218#bib.bib17)]。Shi等人微调LLM用于自动建筑规范合规检查[18 (https://arxiv.org/html/2605.15218#bib.bib18)]。Wen等人提出了一种基于LLM的人机协作方法用于诊断复杂工业设备故障[19 (https://arxiv.org/html/2605.15218#bib.bib19)]。Zhang等人将知识图谱增强的LLM应用于水工结构安全问答[20 (https://arxiv.org/html/2605.15218#bib.bib20)],Wang等人将多模态LLM应用于施工安全检查[21 (https://arxiv.org/html/2605.15218#bib.bib21)]。这些能力直接与仿真自动化相关,其中脚本生成必须与严格的求解器接口和运行时反馈交互,正如多智能体气动优化[22 (https://arxiv.org/html/2605.15218#bib.bib22)]所展示的,并且在工业具身智能综述中有所探讨[23 (https://arxiv.org/html/2605.15218#bib.bib23)]。在代码导向的设置中,模型输出虽然强大但在执行约束严格时可能脆弱。Guo等人勾勒了下一代LLM赋能CAE的机遇[12 (https://arxiv.org/html/2605.15218#bib.bib12)],Li等人综述了LLM在制造生命周期中的应用[13 (https://arxiv.org/html/2605.15218#bib.bib13)],Picard等人评估了从概念设计到制造的视觉语言模型[14 (https://arxiv.org/html/2605.15218#bib.bib14)]——所有这些都报告说,运行时约束下的可靠性促使在代理循环中引入显式恢复控制。

### II-B LLM驱动的有限元自动化

近期工作从多个角度探索了LLM驱动的有限元自动化。Mudur等人提出了FEABench,对COMSOL多物理场任务上的单次和代理循环LLM能力进行基准测试,报告可执行API调用生成率达到88%,但完整问题解决仍具挑战[24 (https://arxiv.org/html/2605.15218#bib.bib24)]。Hou等人提出了AutoFEA,通过集成LLM规划的GCN-Transformer检索模型提高FEA输入文件准确性,并在基于CalculiX的基准上评估[25 (https://arxiv.org/html/2605.15218#bib.bib25)]。这些研究在不同条件下提升了生成质量和流水线覆盖率。我们的工作与之互补,将恢复策略设计作为受控变量进行隔离:我们保持任务集、模型和求解器固定,仅变化恢复策略,并采用重复运行统计和多轴评分。据我们所知,尚无先前研究报告针对APDL自动化的恢复配置进行如此受控的头对头比较。

### II-C 代理执行基础设施

在工程仿真领域之外,并行的工作流关注LLM代理的基础设施层——管理工具生命周期、重试逻辑、错误传播和执行轨迹的框架。Wei将主导的代理循环描述为单就绪单元调度器,并提出Graph Harness,它将规划、执行和恢复分离为独立层,并具有形式化的节点状态机[5 (https://arxiv.org/html/2605.15218#bib.bib5)]。Guerin和Guerin提出了KAIJU,一个将工具执行与LLM推理解耦的执行内核,采用意图门控执行确保安全性,并提供可配置的执行模式以适应不同任务复杂度[6 (https://arxiv.org/html/2605.15218#bib.bib6)]。这些系统与CAX-Agent共享一个关键设计原则:编排器——而非LLM——拥有重试预算、工具调度和停止条件的控制权。我们的工作不同之处在于实证焦点:我们并非提出新的框架架构,而是研究在受控条件下使用重复测量和人类评估时,特定框架组件(恢复策略)的行为表现。

## III 方法

### III-A 系统架构

CAX-Agent组织为三层堆栈,面向以APDL为中心的执行。在CAX术语中,基准测试支持CAD加CAE任务:面向CAD的提示解释和几何/仿真脚本构建,随后通过MAPDL进行CAE执行和验证。

**第一层(路由层):** 基于FastAPI的入口点维护一个模块注册表,并根据模块键路由每个请求。传入请求在注册模块中验证,并分派到相应的子代理处理器。该层负责跨注册模块的函数级流量路由。

**第二层(本地轻量模型层):** 运行时调用本地推理后端,用于快速的首次生成APDL和修复循环调用,然后将工具动作返回给编排器。在部署的CAX设置中,该层运行Qwen-27B作为本地模型。

**第三层(统一外部LLM API层):** 外部模型访问通过一个网关配置进行统一,该配置管理认证和基础URL路由。实验协议将外部模型固定为Claude Sonnet 4.6。当本地推理不足时,该层提供高能力的API补全路径。

在这三层之上,编排器将用户指令转换为APDL脚本,触发MAPDL执行,收集日志,并协调有限次修复尝试。一个连接器层选择可用的求解器后端(PyMAPDL、CLI MAPDL或回退模式),同时维护统一的仿真接口;重试预算和迭代轨迹记录用于后续分析。图2 (https://arxiv.org/html/2605.15218#S3.F2) 总结了该循环。失败执行会发出求解器日志,重新注入模型提示以进行针对性重新生成。这种设计将生成与执行控制分离:模型处理语义修复,而编排器强制执行重试预算和停止条件。

LLM服务 | 代理框架 | 求解器后端
---|---|---
路由模块注册表 (FastAPI) | | 
本地LLM Qwen-27B, 首次生成 | | 
外部LLM API Claude Sonnet 4.6 | | 
分派 / 升级 | | 
用户提示 | 上下文管理器 压缩 | 修剪 | 折叠 | 
| 工具流水线 验证 → 允许 → 执行 | 
| 状态跟踪 消息配对不变性 | 
| 编排器核心 循环 (while true) 重试预算 | 停止控制 | 
| 执行轨迹 | 检查点 | 异常守卫 保留与自我修复 | 
| 恢复阶梯 L1: 规则修补 (免费) L2: LLM重生成 (廉价) L3: 上下文丰富 (付费) L4: 人工升级 | 
MAPDL引擎 PyMAPDL | CLI | 回退 | 
错误日志提取器 | 后处理图像输出 | 
错误反馈 | 有限重试 | 重新生成APDL | 

图 2: CAX-Agent运行时架构,展示三层框架设计,含恢复策略选择和反馈循环。

### III-B 实现细节

LLM温度

相似文章

用于长时间运行代理的有效工具

Anthropic Engineering

Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。

面向长时应用开发的Harness设计

Anthropic Engineering

Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。