工具增强代理:闭环优化、仿真与建模编排
摘要
本文介绍了COSMO-Agent,一个工具增强的强化学习框架,用于训练LLM执行闭环CAD-CAE优化,迭代生成参数化几何体并运行仿真直到满足约束条件,并包含一个多约束奖励和新的行业对齐数据集。
arXiv:2605.20190v1 公告类型:新论文
摘要:迭代式工业设计-仿真优化受限于CAD-CAE语义鸿沟:在多样且耦合的约束下,将仿真反馈转化为有效的几何编辑。为填补这一鸿沟,我们提出COSMO-Agent(闭环优化、仿真与建模编排),一个工具增强的强化学习(RL)框架,用于训练LLM完成闭环CAD-CAE过程。具体而言,我们将CAD生成、CAE求解、结果解析和几何修订构建为一个交互式RL环境,其中LLM学习编排外部工具并修订参数化几何体,直到满足约束条件。为使学习过程稳定且适用于工业场景,我们设计了多约束奖励,共同鼓励可行性、工具链鲁棒性和结构化输出的有效性。此外,我们贡献了一个行业对齐的数据集,涵盖25类组件及可执行的CAD-CAE任务,以支持现实训练与评估。实验表明,COSMO-Agent训练显著提升了小型开源LLM在约束驱动设计方面的性能,在可行性、效率和稳定性上超越了大型开源模型和强封闭源模型。
查看缓存全文
缓存时间: 2026/05/22 08:46
# 用于闭环优化、仿真与建模编排的工具增强型智能体
来源:https://arxiv.org/html/2605.20190
李院邓1,2舒建邓2111邓L.和邓S.贡献相同。陈永康2戴永康1钟志昂2李林阳2孙潇2史一磊1黄华曦2222史Y.和黄H.为共同通讯作者。 1西北工业大学2上海人工智能实验室 \{dly,yilei\_shi\}@mail\.nwpu\.edu\.cn\{dengshujian,huanghuaxi\}@pjlab\.org\.cn
###### 摘要
迭代式工业设计-仿真优化受限于CAD-CAE语义鸿沟:在多样且耦合的约束下,将仿真反馈转化为有效的几何编辑。为填补这一鸿沟,我们提出**COSMO-Agent**(闭环优化、仿真与建模编排),一种工具增强的强化学习(RL)框架,用于教授大语言模型(LLM)完成闭环CAD-CAE流程。具体地,我们将CAD生成、CAE求解、结果解析和几何修正建模为一个交互式RL环境,其中LLM学习编排外部工具并修正参数化几何,直至满足所有约束。为使学习过程稳定且适用于工业场景,我们设计了一个多约束奖励,共同鼓励可行性、工具链鲁棒性和结构化输出的有效性。此外,我们提供了一个行业对齐的数据集,涵盖25个部件类别,包含可执行的CAD-CAE任务,支持逼真的训练与评估。实验表明,COSMO-Agent训练显著提升了小型开源LLM在约束驱动设计上的表现,在可行性、效率和稳定性方面超越大型开源模型和强闭源模型。

图1:COSMO-Agent通过迭代生成参数化几何、运行CAE仿真、提取位移/应力指标,并更新设计参数,直至所有约束满足,执行闭环CAD-CAE优化。
## 1 引言
现代工业设计是迭代搜索满足耦合且常具竞争性约束的几何形状的过程。在功能部件开发中,计算机辅助设计(CAD)通过特征/历史树定义参数化几何,而计算机辅助工程(CAE)通过仿真提供基于物理的验证(例如有限元分析)。尽管自动化技术不断进步,*闭环*CAD-CAE迭代仍是实际瓶颈:工程师必须将高维仿真反馈(场和聚合指标)转化为低维、*结构化*的CAD编辑,且这些编辑需在原始参数化历史下仍可执行。这一转化因异构工具链的频繁中断(再生崩溃、网格划分错误、求解器不收敛常见)而进一步复杂化。因此,实际中的CAD-CAE优化成为一个在硬可执行性约束和随机工具故障下的长时域序列决策问题,而非简单的连续优化问题。
现有自动化策略仅部分解决此设定。无导数优化器\[13,11,3,29\]可针对标量目标调整参数,但通常不将*可执行性*和*故障恢复*作为优化状态来建模。此外,有效性通常通过刚性模板或手工规则来强制执行。可微分或代理模型方法可减少昂贵的求解器调用,但常依赖与实际生产CAD-CAE流水线存在偏差的近似,并且不直接生成与历史一致的、在原生参数化CAD中可执行的编辑\[23,18,17,12\]。近期进展提供了一种替代方案:以LLM作为控制器,将工具反馈映射为结构化的工具调用\[38,1\],同时工具使用训练提高了API调用保真度\[25,22\]。然而,基于提示的智能体在再生/网格划分/求解器故障面前仍然脆弱,而标准的指令微调或RLHF主要针对短时域模仿/对齐,而非由下游仿真后果驱动的长时域试错优化\[32,31,21,6\]。
为应对这些挑战,我们引入**COSMO-Agent**(闭环优化、仿真与建模编排),一种新颖的工具增强型强化学习框架,用于可靠的闭环CAD-CAE迭代演化。我们将CAD编辑、再生、网格划分、求解和结果解析建模为具有显式故障状态的交互式环境。LLM策略在参数化编辑的结构化动作空间上运行。每个提议的编辑由CAD工具集验证并通过仿真评估,智能体根据工具反馈迭代修正动作,直至所有约束满足或预算耗尽。为使学习在部分可靠的流水线中稳定进行,我们优化一个多约束目标,共同鼓励:(i) 通过约束满足的*可行性*,(ii) 通过成功执行和从工具链故障中恢复的*鲁棒性*,以及(iii) 与参数化要求对齐的*结构化有效性*,防止产生数值上有利但不可执行设计的奖励黑客行为。
最后,我们贡献了一个行业对齐的基准测试,包含约20,000个可执行的CAD-CAE任务,涵盖25个部件类别,具有标准化接口和固定的工具调用/重试预算。每个任务提供初始参数化CAD模型、工具链配置以及跨物理、几何和经济(例如成本)的约束,实现可行性、效率(迭代次数/工具调用)和稳定性(故障恢复)的可复现评估。利用此基准,我们在统一接口和固定预算下比较了多种开源和专有LLM。结果表明,COSMO-Agent训练显著提升了一个8B LLM,在我们的协议下实现了比大多数基线更高的可行性、效率和稳定性。总之,我们的贡献如下:
- 将闭环CAD-CAE迭代演化形式化为一个长时域序列决策问题,显式建模异构工具、硬可执行性约束和随机故障状态。
- 提出COSMO-Agent,一种工具增强型RL框架,具有多约束目标,将结构化、可执行的参数化编辑根植于下游反馈,共同优化可行性、对工具故障的鲁棒性和输出有效性。
- 引入一个行业对齐的可执行CAD-CAE基准测试,具有标准化接口、固定工具调用和重试预算,以及约束(即物理、几何和成本)。
- 展示在这些受控预算下闭环性能的提升。
## 2 相关工作
### 2.1 CAD模型生成
基于学习的*参数化*CAD研究涵盖表示和生成策略。SketchGraphs\[26\]从实际CAD草图提供大规模约束图。Fusion 360 Gallery\[34\]引入一种程序化CAD语言,包含人类设计序列,以及将CAD构建形式化为序列决策过程的交互环境。JoinABLe\[33\]通过发布弱监督关节标注,将学习扩展到CAD装配体。
近期工作还利用大模型合成或操纵CAD*程序*。LLM4CAD\[16\]研究多模态LLM从文本和图像生成CAD程序,而Text-to-CadQuery\[35\]直接生成CadQuery代码,并通过监督和微调提高可执行性和几何质量。OpenECAD\[39\]通过结构化草图和可执行的构造命令实现可编辑CAD,工具增强型智能体如CAD-Assistant\[19\]通过CAD API迭代执行和修复CAD命令。总体而言,先前系统主要强调几何正确性、可编辑性或任务完成,很少将下游CAE反馈和工程验收约束纳入闭环目标,或将实际CAD流水线中的可执行性和故障恢复作为一等优化目标。
请参阅图注
图2:COSMO-Agent:(a) 整体闭环框架,(b) 用于CAD-CAE优化的MCP工具集,(c) 训练奖励函数。
### 2.2 用于工程仿真的LLM智能体
越来越多的研究将LLM与工程仿真器结合,以自动化求解器设置和执行。在CFD领域,MetaOpenFOAM\[5\]采用多智能体架构处理OpenFOAM工作流,常利用检索进行配置生成和纠错;CFDagent\[36\]同样将预处理、求解和后处理分解为专用智能体,并进行迭代调试。其他工作构建训练数据和微调模型,用于从自然语言到求解器配置的转换,如NL2FOAM\[8\];近期端到端自动化延续了这一方向(例如Foam-Agent\[40\]),并且在MOOSE\[42\]等生态系统中也探索了有限元工作流。这些系统展示了“LLM+工具”在生成仿真输入、调试配置和产生结果方面的潜力。然而,它们主要针对从规范完成(或复现)一个仿真实例。对于多轮设计优化——根据仿真结果迭代编辑几何直至满足多个耦合验收条件——可学习的闭环策略仍探索不足,尤其是在工具链不稳定的现实情况下。
### 2.3 工具增强型LLM智能体
对于LLM智能体,工具增强将决策根植于可执行动作,并允许从可观察的工具反馈进行策略更新,这对于具有外部依赖的多步骤任务至关重要。ReAct\[38\]、MRKL\[14\]和SayCan\[1\]是推理与工具调用交织的范例,而工具使用训练改善了调用时机和API调用保真度\[25,22\]。
在提示之外,近期工作通过可验证反馈和高效rollout扩展了长时域训练与优化。InternBootcamp\[15\]提供可验证的任务环境以支持可扩展的RL和评估,HybridFlow\[28\]提高了多步骤行为的RLHF系统效率,MARTI\[41\]通过多轮rollout和基于验证器的工作流统一了多智能体训练与推理。然而,这些框架并未直接解决闭环CAD-CAE优化,其中智能体必须在硬可执行性约束、固定工具调用/重试预算下生成结构化、与历史一致的参数化编辑,同时保持对随机工具链故障的鲁棒性。COSMO-Agent通过训练具有显式故障状态和根植于下游CAE反馈及工程验收约束的多约束目标的LLM策略来填补这一空白。
## 3 方法
如图2所示,我们从三个方面介绍COSMO-Agent:1)通用框架,2)MCP工具设计,3)奖励模块。
### 3.1 通用框架
COSMO-Agent的通用框架如图2(a)所示。我们将用户给定的设计要求、约束、初始几何参数和材料参数构建为提示,输入LLM。我们将每个任务实例记为:
I = (c, p₀, η, δ, γ, κ, M) (1)
其中c表示部件类别,p₀ ∈ ℝᵈ是初始几何参数向量,η指定仿真设置(例如载荷和边界条件),δ是最大位移阈值,γ是最大允许von Mises应力阈值,κ是成本阈值,M是材料库,其中应力极限依赖于材料并由材料库提供,即γ(m_t) = σ_allow(m_t)。LLM随后根据输入提示制定一轮轮更新的设计方案{(p_t, m_t)}_(t=0)^T。在每一轮t,设计状态由几何参数p_t和材料选择m_t ∈ M决定。我们将设计状态输入LLM,以获取MCP工具的调用策略如下:
x_t = (c, p_t, m_t) (2)
规划器随后调用MCP工具。这些MCP工具生成三维CAD设计文件,CAE求解器根据指定条件执行仿真求解和计算。MCP工具在仿真设置η下返回一个标量反馈元组:
Φ(x_t; η) = (u_max^(t), σ_max^(t), C^(t)) (3)
其中u_max^(t)是最大位移幅值,σ_max^(t)是最大von Mises等效应力,C^(t)是成本指标。结果随后反馈给LLM,以验证是否满足设计要求。设计可行性由以下约束定义:
u_max^(t) ≤ δ, σ_max^(t) ≤ σ_allow(m_t), C^(t) ≤ κ (4)
其中σ_allow(m_t)表示材料库中材料m_t的允许应力。若不满足要求,规划器重新启动另一轮CAD-CAE迭代。在每一轮,它将用户输入和交互历史记录在记忆中,使用最新的Φ(x_t; η)评估约束,并输出更新的设计参数和材料选择(p_(t+1), m_(t+1))。更新由数值反馈引导:位移和应力从CAE结果解析,成本从几何和材料属性计算。相似文章
MCP-Cosmos:基于世界模型增强智能体在 MCP 环境中执行复杂任务
本文介绍了 MCP-Cosmos,这是一个将生成式世界模型集成到 Model Context Protocol (MCP) 生态系统中的框架,旨在通过潜在空间中的预测性模拟来增强智能体的规划与执行能力。
面向CAD生成的记忆增强强化学习智能体
本文提出了一种用于CAD生成智能体的记忆增强强化学习框架,该框架集成了几何内核工具链、双轨记忆和动态效用检索,以处理具有长操作序列和几何约束的复杂CAD模型,从而提升了成功率和几何一致性。
HMACE:面向组合优化的异构多智能体协同进化
本文介绍了 HMACE,这是一种异构多智能体协同进化框架,利用大型语言模型(LLM)自动化设计启发式算法,以解决 NP 难组合优化问题。实验表明,在旅行商问题(TSP)和装箱问题(BPP)等任务上,该方法在质量与效率的权衡方面优于单智能体和基准多智能体方法。
UnityMAS-O:一种基于LLM的多智能体系统的通用RL优化框架
UnityMAS-O 提出了一种针对基于LLM的多智能体系统的通用RL优化框架,将整个工作流视为优化单元,支持角色级别的信用分配和可配置的参数共享,在问答和代码生成任务上展现了显著的性能提升。
OR-Space:面向工业优化代理的全生命周期工作台基准
OR-Space是一个基准测试,用于评估大语言模型代理在工业运筹工作流中的表现,重点关注多阶段任务生命周期和超越简单文本生成的持久工作空间。