PhyDrawGen:物理驱动的自然语言示意图生成
摘要
PhyDrawGen 是一个神经符号管道,它结合基于大语言模型的场景理解、确定性约束求解器以及基于视觉语言模型的验证循环,从自然语言生成物理精确的示意图,在物理问题基准测试中优于现有模型。
查看缓存全文
缓存时间: 2026/06/01 09:22
# PhyDrawGen: 基于物理的文本到图表生成
来源: https://arxiv.org/html/2605.30512
Nafiul Haque Syed Nazmus Sakib11footnotemark:1Shifat E Arman
达卡大学机器人与机电一体化工程系
###### 摘要
从文本生成物理图表要求严格遵守物理定律。尽管当前的生成模型能产生视觉上合理的输出,但系统性地存在虚构力矢量、忽略守恒定律以及违反几何约束的问题。我们提出 PhyDrawGen,一种神经符号流水线,它将语义场景理解与物理约束满足解耦。首先,大语言模型从问题文本中提取一个类型化场景图。然后,一个确定性求解器将该图转换为平面直线图 (PSLG),将力平衡、光路和场拓扑编码为精确的几何图元。最后,一个微调的 Qwen-VL 模型实现了一个视觉接地提议-验证循环,以迭代纠正任何约束违反。在一个涵盖力学、光学和电磁学的 1,449 个问题的基准测试上,PhyDrawGen 显著优于 GPT-5-image、Gemini 2.5 Flash 和 Gemini 3 Pro,在异常物体问题上也展现出稳健的物理准确性。
## 1 引言
物理图表——受力分析图、光线光学构造和电磁场图——是形式的视觉论证,其中每个箭头编码一条物理定律,每个角度编码一个几何约束,每个空间关系编码一个由经典物理支配的相互作用。指向错误方向的力箭头不仅是美学缺陷;它是一个错误的物理断言。因此,生成基于物理的科学图表代表了自然语言理解、结构化推理和受约束视觉合成交叉领域的前沿。
尽管扩散模型能够生成逼真的图像 (Rombach et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib26); Ramesh et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib25); Saharia et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib27); Ho et al.,2020 (https://arxiv.org/html/2605.30512#bib.bib10)) 并通过适配器实现空间条件生成 (Zhang et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib37); Mou et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib23); Ye et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib35)) 以及接地机制 (Li et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib18); Bar-Tal et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib2); Johnson et al.,2018 (https://arxiv.org/html/2605.30512#bib.bib14)),但扩散模型的加噪和去噪架构从根本上不适合需要硬约束满足的任务。去噪过程优化的是在学得先验下的感知合理性,而非物理定律下的代数正确性。当应用于物理图表生成时,这表现为系统性失败:扩散模型虚构力的方向,以几何不一致的角度放置箭头,省略守恒定律所要求的力,并混淆视觉相似但物理不同的配置,例如静摩擦阻碍运动与滑动过程中的动摩擦。
最近的基准测试记录了大语言模型 (LLM) 和视觉语言模型 (VLM) 从图表*solve*物理问题的显著能力 (He et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib7); Xiang et al.,2025 (https://arxiv.org/html/2605.30512#bib.bib32); Lu et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib21); Yue et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib36); Lu et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib20)),展示了在结构化视觉输入上的强大思维链推理能力。此外,LLM 在从自然语言进行结构化提取方面表现出强大能力,如场景图生成流水线 (Gao et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib5)) 和空间推理系统 (Li et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib18)) 所示。关键的是,思维链提示 (Wei et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib31); Kojima et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib15)) 使 LLM 能够将物理问题分解为类型化实体和关系——物体、表面、物理作用、力和几何约束——这些形式适合下游约束求解。我们在相反方向上利用这种能力:不是解析图表来解决问题,而是解析问题来构造图表。
我们提出 PhyDrawGen,一个流水线,通过使用 LLM 作为结构化场景图提取器和确定性约束求解器作为精确物理验证器,将理解物理问题的语义任务与满足其物理约束的符号任务分离。约束求解器生成一个平面直线图 (PSLG),其中物理定律被编码为类型化几何图元,涵盖力学、光学和电磁学,使用统一的表示框架。完整的输出是一个标准的物理图表,包含带有标记力箭头的完整场景和每个物体的受力分析图。这种方法解决了概率性视觉表示与结构性物理定律之间的不一致。通过在渲染之前将文本转换为符号蓝图,我们确保了语义灵活性不会损害几何或物理真实性。我们做出三项贡献:
1. PhyDrawGen 场景图模式。一个类型化异构图,其 Constraint 节点词汇直接映射到代数物理条件。该模式在统一的类型化词汇下涵盖力学、光学和电磁学,包含六类节点和六种边关系。
2. PSLG 约束求解器。一个确定性解析求解器,将场景图转换为平面直线图,将力平衡、光线一致性和场线拓扑编码为类型化几何约束图元。
3. 学习型约束纠正循环。一个视觉语言模型,通过在自动生成的约束违反示例上进行监督学习微调,实现一个提议-验证纠正循环,结合精确符号约束检查与视觉接地语言模型纠正。
## 2 相关工作
##### 受控合成与结构化生成。尽管扩散模型和空间适配器革新了文本到图像合成 (Rombach et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib26); Ramesh et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib25); Saharia et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib27); Ho et al.,2020 (https://arxiv.org/html/2605.30512#bib.bib10); Song et al.,2021 (https://arxiv.org/html/2605.30512#bib.bib28); Zhang et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib37); Mou et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib23); Ye et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib35)),但它们本质上是优化在学得先验下的视觉合理性,而非硬性符号约束。因此,即使有先进的布局接地 (Li et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib18); Bar-Tal et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib2)) 或草图引导 (Xing et al.,2026 (https://arxiv.org/html/2605.30512#bib.bib33); Vinker et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib30)),这些架构也无法保证生成的力箭头或光线符合牛顿定律或斯涅尔定律。为了强制物理一致性,近期工作越来越多地转向结构化中间表示。通过将合成建立在类型关系图 (Johnson et al.,2018 (https://arxiv.org/html/2605.30512#bib.bib14); Xu et al.,2017 (https://arxiv.org/html/2605.30512#bib.bib34); Gao et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib5)) 上,并利用将语义推理与确定性验证分离的神经符号框架 (Huang et al.,2026 (https://arxiv.org/html/2605.30512#bib.bib12)),系统可以实现稳健的约束满足。PhyDrawGen 扩展了这一范式;我们利用 LLM 思维链空间推理 (Li et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib18); OpenAI,2023 (https://arxiv.org/html/2605.30512#bib.bib24); Liu et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib19); Bai et al.,2023 (https://arxiv.org/html/2605.30512#bib.bib1); Wei et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib31); Kojima et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib15)),但将通用空间语义替换为严格基于经典物理的领域特定词汇。
请参见图注
图 1: PhyDrawGen 的整体流水线。为了桥接语义理解与代数精确性,一个语言模型 (GPT-4o) 从文本 (左框) 中提取一个类型化场景图。求解器将其转换为强制物理图元的平面直线图 (中间框),同时一个 Qwen-VL 循环在渲染前迭代纠正违反。
##### 物理推理与图表理解。视觉语言模型对物理图表进行推理的能力已被广泛基准测试 (He et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib7); Xiang et al.,2025 (https://arxiv.org/html/2605.30512#bib.bib32); Lu et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib21); Yue et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib36); Lu et al.,2024 (https://arxiv.org/html/2605.30512#bib.bib20)),揭示了在力学、光学和电磁学上基于图表的解题中强大的思维链性能。这些基准测试表明,当前模型能够高精度地*解释*solve物理图表,然而反向能力——从自然语言*生成*物理正确的图表——却鲜受关注。物理教育研究长期记录,即使是概念上理解力和运动的高级学生也经常无法构建几何正确的图表 (Vignal and Wilcox,2022 (https://arxiv.org/html/2605.30512#bib.bib29); Hestenes et al.,1992 (https://arxiv.org/html/2605.30512#bib.bib9))。将概念理解转化为几何精确性需要一个正式的数学基础。我们借鉴了受约束拟共形映射 (Lai et al.,2026 (https://arxiv.org/html/2605.30512#bib.bib17)) 和平面可折叠性理论 (Demaine and O’Rourke,2007 (https://arxiv.org/html/2605.30512#bib.bib4); Bern and Hayes,1996 (https://arxiv.org/html/2605.30512#bib.bib3); Hull,2002 (https://arxiv.org/html/2605.30512#bib.bib13)),这些理论建立了折纸顶点闭合与力平衡之间的理论联系,以构建我们的 PSLG 约束图元。通过集成这一严格的几何词汇,PhyDrawGen 提供了第一个端到端框架,将物理图表生成形式化为一个具有精确代数验证的结构化预测问题。
## 3 方法论
### 3.1 场景图提取
给定一个物理问题文本 $P$,我们使用 GPT-4o 结合思维链自检 (Wei et al.,2022 (https://arxiv.org/html/2605.30512#bib.bib31); OpenAI,2023 (https://arxiv.org/html/2605.30512#bib.bib24)) 提取一个类型化异构图 $\mathcal{G}=(\mathcal{V},\mathcal{E})$。为了结构化物理语义,节点集 $\mathcal{V}$ 被划分为六类:Object $\mathcal{V}_O$ (质量、电荷、半径)、Surface $\mathcal{V}_S$ (倾斜度、摩擦系数、折射率)、Action $\mathcal{V}_A$ (例如,static_equilibrium、rolling)、Force $\mathcal{V}_F$ (类型、方向、归一化大小)、Spatial $\mathcal{V}_{Sp}$ (归一化二维坐标和朝向),以及 Constraint $\mathcal{V}_C$ (显式几何条件,如 perpendicular 或 vector_closure)。边集 $\mathcal{E}$ 捕获关系 (Acts_On、Contacts、Interacts_With、Applies_To、Spatially_At、Constrained_By),每个关系根据域 $d \in \{\textsc{mech},\textsc{optics},\textsc{em}\}$ 定类型。LLM 生成一个部分图 $\mathcal{G}_{\text{LLM}}=(\mathcal{V}_{\text{LLM}},\mathcal{E},\delta)$,其中 $\mathcal{V}_{\text{LLM}}=\mathcal{V}_O \cup \mathcal{V}_S \cup \mathcal{V}_A \cup \mathcal{V}_{Sp}$ 仅包含可提取实体,且 $\delta$ 将边映射到其物理域。该提取在类型化节点 (类型 $\tau_v$、属性 $\mathbf{a}_v$) 和边 $\tau_e$ 上自回归分解。
$$p_{\theta}(\mathcal{G}_{\text{LLM}} \mid P) = \prod_{v \in \mathcal{V}_{\text{LLM}}} p_{\theta}(\tau_v, \mathbf{a}_v \mid P) \prod_{(u,v,\tau_e) \in \mathcal{E}} p_{\theta}(\tau_e \mid u, v, P). \qquad (1)$$
提取遵循严格的五步提示序列:(A) 识别类型化实体;(B) 分类状态;(C) 映射物体间接触;(D) 推断空间位置;(E) 自检运动学一致性 (例如,确保所有 Force 节点都有目标且法向量可推导)。关键的是,力集和约束集 ($\mathcal{V}_F, \mathcal{V}_C$) 并非由 LLM 采样,而是由下游约束求解器根据 $\mathcal{G}_{\text{LLM}}$ 确定性地实例化。最终图序列化为 JSON 并在渲染前进行模式验证。
### 3.2 PSLG 约束求解器
给定 $\mathcal{G}_{\text{LLM}}$,求解器生成一个平面直线图 (PSLG) $\mathcal{H}=(\mathcal{P},\mathcal{A},\mathcal{C})$——一个位于 $[0,1]^2$ 中的类型化直线嵌入,具有顶点集 $\mathcal{P}$、有向边集 $\mathcal{A}$ (携带绝对角度 $\theta_a \in [0,2\pi)$) 和几何约束集 $\mathcal{C}$。物理定律被编码为类型化约束图元,每个域一个,根据场景图解析推导。
##### 力学。对于每个具有 action static_equilibrium 的 Object 节点 $o$,求解器强制矢量闭合条件:
$$\sum_i \mathbf{F}_i = \mathbf{0}, \qquad (2)$$
其中求和应用于作用在 $o$ 上的所有力矢量。这是一个 concurrent_star 图元:所有力边在物体质心处汇聚,其矢量和闭合 (Demaine and O’Rourke,2007 (https://arxiv.org/html/2605.30512#bib.bib4))。对于具有表面倾斜度 $\theta$ 的 Contacts$(o,s)$ 边,法向力方向受约束为:
$$\hat{\mathbf{N}} \perp \hat{\mathbf{s}}, \quad \hat{\mathbf{s}} = (\cos\theta, \sin\theta), \qquad (3)$$
摩擦力方向满足 $\hat{\mathbf{f}} \parallel \hat{\mathbf{s}}$,符号由预期运动方向决定,且重力固定为 $\hat{\mathbf{g}} = (0,-1)$。对于 rolling 物体,力矩约束 $\tau = f \cdot r = I\alpha$ 被编码为一个额外的 Constraint 节点,将摩擦力边连接到物体半径。对于非平衡物体,公式 (2) 被放宽,合力 $\mathbf{F}_{\text{net}} = \sum_i \mathbf{F}_i \neq \mathbf{0}$ 被发射为一个显式的净力边,编码加速度方向。
##### 光学。在每个折射界面处,求解器强制斯涅尔定律 $n_1 \sin\theta_1 = n_2 \sin\theta_2$ 作为角度约束图元,确保入射光线、折射光线和法线共面且角度关系正确。反射定律 $\theta_i = \theta_r$ 也作为对称约束图元编码。对于透镜系统,薄透镜方程 $\frac{1}{f} = \frac{1}{v} - \frac{1}{u}$ 被转换为焦点、物距和像距之间的几何关系,通过从透镜中心出发的平行和汇聚光线图元实现。光线路径被限制为直线段,界面处的折射和反射由法线定向。
##### 电磁学。对于静电场线,求解器强制电场线从正电荷发出或进入负电荷,并满足高斯通量条件的拓扑约束。场线密度表示场强。对于电路,基尔霍夫电流和电压定律被编码为在节点处电流矢量和为零,以及沿环路电压降的代数约束。磁场线以闭合回路形式生成,遵循右手定则确定方向。对于每个电荷,库仑力 $\mathbf{F} = k q_1 q_2 / r^2$ 的方向沿连线,大小与距离平方成反比,通过从电荷延伸的直线力边表示。相似文章
PhysForge:为交互式虚拟世界生成具备物理基础的 3D 资产
PhysForge 是一个两阶段框架,能够生成具备物理基础和运动学参数的交互式 3D 资产,解决了虚拟世界中静态几何模型带来的瓶颈问题。
PhyGenHOI: 物理感知的动态人-物交互4D生成
PhyGenHOI是一个新颖框架,通过将运动扩散模型与物质点方法模拟相结合,利用3D高斯表示生成物理精确的4D人-物交互。
BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction
BiNSGPS is a framework that introduces bidirectional interaction between a multimodal LLM adviser and a symbolic solver for geometry problem solving, allowing feedback from the solver to correct errors and generate auxiliary hypotheses. It achieves state-of-the-art performance of 90.5% on Geometry3K and 90.1% on PGPS9K benchmarks.
PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
DALM:一种通过三阶段结构化生成的领域代数语言模型
DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。