基于Miller指数的潜变量晶体学断裂面推理与视觉-语言模型

arXiv cs.LG 论文

摘要

本文研究多模态大语言模型(MLLMs)是否能够利用Miller指数作为潜变量表示,从视觉输入推理晶体学断裂几何,评估其推断物理有效平面假设的能力,并判断该表示在陶瓷、玻璃、金属和混凝土等材料中的适用性。

arXiv:2605.20416v1 公告类型: 新 摘要: 我们研究多模态大语言模型(MLLM)是否能够利用晶体学平面指数(Miller指数)作为结构化的潜变量表示,用于推理断裂几何。我们将Miller指数 $z = (h,k,l)$ 形式化为控制理想化平面断裂的潜变量,并评估两种互补能力:(i) 潜变量推断,即模型在物理有效条件下将视觉观测映射到平面假设;(ii) 潜变量适用性评估,即模型判断该表示对于给定断裂图像是否有意义。 通过在合成数据、受控的2D-3D几何对以及包括陶瓷、玻璃、金属和混凝土在内的多种材料类别的真实断裂图像上进行的大量实验,我们表明,MLLM能够在理想化设置中可靠地进行潜变量推断,并且至关重要的是,当底层物理不支持时,能够拒绝该潜变量表示。这些结果表明,只要明确建模有效性域,MLLM可以作为基于结构化潜变量先验的物理感知推理系统。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:25

# 基于米勒指数的潜在晶体学断裂面推理与视觉-语言模型

来源:https://arxiv.org/html/2605.20416

###### 摘要

我们研究多模态大语言模型(MLLMs)是否能够利用晶体学平面指数(米勒指数)作为结构化的潜在表示来推理断裂几何。我们将米勒指数 \(z=(h,k,l)\) 定义为一个控制理想化平面断裂的潜变量,并评估两种互补能力:(i) 潜在推理:模型在物理有效条件下将视觉观察映射到平面假设;(ii) 潜在适用性评估:模型判断给定断裂图像中这种表示是否有意义。

通过在合成数据、受控的2D–3D几何配对数据以及跨多种材料类别(包括陶瓷、玻璃、金属和混凝土)的真实断裂图像上的大量实验,我们证明,MLLMs 在理想化条件下能够可靠地进行潜在推理,并且关键的,在底层物理不支持该表示时,能够拒绝使用潜在表示。这些结果表明,只要明确建模了有效域,MLLMs 就能作为基于结构化潜在先验的物理感知推理系统。

## 1 引言

断裂几何提供了材料失效的底层物理机制的直接视觉表现。在晶体固体中,断裂通常沿晶体学平面发生解理,这些平面自然用米勒指数 \((hkl)\) 描述[1 (https://arxiv.org/html/2605.20416#bib.bib1)]。这些指数编码了晶格平面的取向,提供了一个紧凑且物理可解释的表示,将微观晶体结构与宏观断裂形态联系起来[2 (https://arxiv.org/html/2605.20416#bib.bib2),3 (https://arxiv.org/html/2605.20416#bib.bib3)]。

然而,这种表示本质上是有局限性的。使用米勒指数假设断裂由单一的、定义明确的晶体学平面控制,这个假设主要在理想化或高度有序的材料中成立。在许多现实场景中——包括多晶陶瓷、无定形玻璃以及如混凝土等异质性复合材料——断裂是由微结构异质性、应力分布和多尺度效应等复杂相互作用驱动的[2 (https://arxiv.org/html/2605.20416#bib.bib2)]。因此,从观察到的断裂几何到单一米勒指数集的映射变得模糊或根本无效。

现代多模态大语言模型(MLLMs)在视觉推理和跨模态理解方面展示了强大的能力[4 (https://arxiv.org/html/2605.20416#bib.bib4),5 (https://arxiv.org/html/2605.20416#bib.bib5),6 (https://arxiv.org/html/2605.20416#bib.bib6),7 (https://arxiv.org/html/2605.20416#bib.bib7),8 (https://arxiv.org/html/2605.20416#bib.bib8)]。这些模型能够解释视觉输入并生成结构化的解释,表明可以利用物理上有意义的潜在表示来指导它们的推理。这提出了一个关键问题:MLLMs 是否能够利用源自物理学的结构化潜变量(如米勒指数)来解释断裂几何,并且能否判断这些表示何时适用?

在本工作中,我们通过将米勒指数视为一个引导潜变量,并评估模型在断裂机制谱系中的行为来研究这个问题。我们不将任务定义为直接的分类问题,而是采用一种潜在引导的推理视角,其中模型必须既推断出一个合理的潜在结构,又要评估其有效性。这种表述使我们能够不仅考察模型在理想化设置中能否识别晶体学平面,还能考察它在更复杂或现实场景中能否认识到这些表示何时失效。

我们的结果表明,MLLMs 能够在断裂由单一平面结构控制的受控合成设置中成功进行潜在推理。然而,这种能力不能泛化到真实断裂中,因为此时潜在表示的底层假设往往被违反。重要的是,当表示在物理上不适用时,模型能够拒绝这些表示。这些发现表明,在此背景下,MLLMs 的主要能力并非对晶体学结构的普遍预测,而是对结构化潜在表示有效性的上下文感知推理。

## 2 方法

### 2.1 潜在引导推理框架

我们定义了一个潜变量

\(z \in \mathcal{Z} = \{(h,k,l)\}\)

表示晶体学平面指数。

这里,\(h\)、\(k\) 和 \(l\) 是称为米勒指数的整数,指定了晶格中平面的取向。直观上,它们描述了平面如何与晶格的三个坐标轴相交。

更精确地说,考虑一个平面与 \(x\)-、\(y\)- 和 \(z\)-轴分别相交于距离 \(x_0, y_0, z_0\)。米勒指数定义为这些截距(以晶格单位表示)的倒数,即

\((h,k,l) = \left(\frac{a}{x_0}, \frac{b}{y_0}, \frac{c}{z_0}\right)\),

其中 \(a\)、\(b\)、\(c\) 是晶格常数。最终值被缩放为最小的整数集。

这个定义导致了简单的几何解释:

- • \((100)\):平面与 \(x\)-轴相交,平行于 \(y\)- 和 \(z\)-轴,产生一个平坦的面。
- • \((110)\):平面同时与 \(x\)- 和 \(y\)-轴相交,形成一个倾斜的平面表面。
- • \((111)\):平面与三个轴等距相交,形成穿越晶格的对角平面。

这些取向差异直接决定了平面与单位立方体相交的形状,这构成了我们合成数据构建的基础。

给定一张图像 \(x\),我们考虑三个相关任务。

首先,潜在推理旨在识别与观察到的几何最可能一致的平面:

\(\hat{z} = \arg\max_z p(z \mid x)\)。

其次,潜在适用性判断基于米勒指数的表示是否有效:

\(a = \mathbb{I}\bigl(\exists z \text{ 使得 } x \sim p(x \mid z)\bigr)\)。

最后,一致性推理评估碎片观察 \(x_f\) 是否与平面假设 \(x_p(z)\) 几何兼容:

\(y = \mathbb{I}\bigl(x_f \sim x_p(z)\bigr)\)。

这个表述突出了问题的一个关键方面:推理仅在适用性成立时才有意义,而适用性本身必须从视觉数据中推断。

我们将断裂解释表述为一个潜在引导的推理问题,其中晶体学平面指数作为结构化的潜变量。这个视角在概念上与机器学习中的潜变量建模框架相关,后者中隐藏变量捕捉底层的生成结构[9 (https://arxiv.org/html/2605.20416#bib.bib9),10 (https://arxiv.org/html/2605.20416#bib.bib10)]。

我们不是直接将输入图像映射到一个标签,而是引入一个中间表示 \(z = (h,k,l)\),它编码了候选断裂平面的取向。

在这种表述中,多模态大语言模型(MLLM)不仅被要求推断一个合理的潜变量,还被要求判断这样的表示是否适用。给定输入图像 \(x\),模型首先评估观察到的几何是否表现出与平面断裂一致的性质,如平坦表面、一致取向和几何规则性。当这些条件满足时,模型尝试将观察与候选平面指数关联起来。否则,它拒绝该潜在表示。

这个视角强调,米勒指数应被解释为条件潜变量,其有效性取决于底层的物理机制。因此,模型的角色是双重的:在适当时推断潜在结构,并在假设被违反时避免应用它。

### 2.2 合成数据构建与几何表示

为了提供一个受控的评估环境,我们构建了一个基于理想化立方体-平面相交的合成数据集。每个平面由

\(ax + by + cz = d\)

定义,其中 \((a,b,c)\) 对应于米勒指数 \((h,k,l)\) 的方向。

平面与单位立方体的相交会产生一个多边形截面,其形状取决于平面的取向。代表性的例子如图1 (https://arxiv.org/html/2605.20416#S2.F1) 所示。

参照图注:图1:立方体单位中指数平面的表示

\{100\} 族的平面与立方体面平行,因此产生正方形或矩形截面。\{110\} 族的平面与两个轴相交,产生歪斜的四边形形状。相比之下,\{111\} 族的平面与三个轴等距相交,产生三角形截面。

更一般地,随着米勒指数的增加或变得更加不对称,所产生的相交几何变得不那么规则,导致越来越扭曲和不对称的多边形形状。为了模拟可观察的断裂模式,我们提取这些立方体-平面相交中相应的二维多边形截面。这些碎片作为模型的主要输入,如图2 (https://arxiv.org/html/2605.20416#S2.F2) 所示。这种表示孤立了几何线索,如平面性、对称性和边缘结构,同时避免了真实图像中的混杂因素,从而提供了潜变量与可观察几何之间清晰且可解释的映射。

参照图注:图2:米勒指数平面

为了进一步评估模型是否能够将观察与潜在假设联系起来,我们构建了配对样本,包括一个二维碎片 \(x_f\) 和一个带有高亮平面的三维立方体 \(x_p(z)\),不同变体如图3 (https://arxiv.org/html/2605.20416#S2.F3) 所示。配包括一致和不一致的配对。在一致的情况下,碎片是从给定平面生成的,而在不一致的情况下,碎片和平面是不匹配的。这种设置能够评估观察与潜在假设之间的几何兼容性。

参照图注:图3:立方体单位内指数平面的潜在变体

### 2.3 任务制定与推理协议

使用构建的数据集,我们定义了三个评估任务。潜在推理要求模型在给定碎片观察后识别出可能的平面族。潜在适用性要求判断基于平面的表示对给定输入是否有意义。一致性推理评估碎片和平面假设是否几何兼容。

这些任务共同捕捉了潜在引导推理的预测和解释两个方面。特别是,它们明确地将识别潜在结构的问题与判断这种结构在最初是否有效的问题分离开来。

我们使用一个多模态大语言模型作为黑箱推理系统。该模型是一个少样本模型,通过图像和显式引用潜变量的结构化指令进行提示。提示旨在鼓励模型描述几何性质、评估平面性、将观察与候选平面取向联系起来,并判断潜在表示是否适用。回答被定性分析以提取每个任务的决策。

提示示例:你被给予一个带有平面切片的三维立方体。请使用晶体学平面指数 (hkl) 描述平面的取向,或识别最可能的平面族(例如,\{100\}、\{110\}、\{111\})。基于几何形状解释你的推理。

因此,模型学习 (hkl) 在三维几何以及二维观察中的意义。

推理:1) 合成数据:1.1 在增强后的二维碎片上进行推理;1.2 在带有增强的二维平面的三维立方体上进行推理。2) 真实数据:不同材料的断裂。

### 2.4 范围与限制

合成数据集提供了潜变量与几何之间的明确定义映射,但不能捕捉真实断裂机制,如异质性、缺陷或塑性变形。因此,它代表了一个理想化的设置,其中潜在表示保证有效。

因此,这种方法的目的是不直接复制真实断裂,而是建立一个受控的基线,用于评估潜在推理和一致性推理。这种潜在表示在多大程度上泛化到现实场景将在结果部分单独讨论。

## 3 结果与分析

我们在从理想化合成数据到复杂真实图像的断裂场景谱系中评估所提出的潜在引导推理框架。目标是不仅评估多模态模型能否推断潜在晶体学平面变量 \(z=(h,k,l)\),还要评估它能否判断这种表示在物理上是否有意义。

### 3.1 理想化合成几何中的潜在推理

我们从受控的合成示例开始,其中断裂明确由通过立方体的单一平面切割控制。这些典型构型如图1所示,显示了代表性的平面族,包括 \{100\}、\{110\} 和 \{111\},以及选定的更高指数平面。

相应的二维碎片几何如图2所示,不同平面取向产生了不同的形状。与面对齐的 \{100\} 族平面产生正方形或矩形碎片,与边对齐的 \{110\} 族平面产生歪斜的四边形形状,而对角的 \{111\} 族平面产生三角形碎片。这些映射为潜变量与可观察几何之间提供了清晰且物理基础的关系。

当呈现这些合成输入时,模型一致地识别出正确的潜在平面族。例如,正方形碎片与 \{100\} 型平面关联,而三角形碎片与 \{111\} 型平面关联。这表明在底层物理支持单平面解释的机制中,潜在推理是成功的。

进一步的验证如图3所示,其中展示了配对的2D–3D示例。每个配对由一个碎片图像和一个带有高亮平面的立方体可视化组成。在这些实验中,模型正确判断了碎片几何是否与提出的平面假设一致。例如,三角形碎片被判断为与 (111) 型平面一致,而与 (100) 型平面不一致,而正方形碎片则表现出相反的行为。这表明模型不仅仅是识别形状,而是在进行跨表示推理,将二维观察与三维潜在结构对齐。

### 3.2 更高指数平面与细粒度潜在结构

我们将合成数据集扩展到包括更高指数平面,如图4 (https://arxiv.org/html/2605.20416#S3.F4) 所示,其中平面

相似文章

视觉语言模型真的能进行视觉推理吗?模态差距的严格研究

arXiv cs.CL

本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

多模态大语言模型内部视觉表征的因果探针

arXiv cs.AI

本文提出了一种用于探测多模态大语言模型内部视觉表征的因果框架,揭示了实体与抽象概念在编码方式上的差异。研究强调增加模型深度对于编码抽象概念至关重要,并揭示了当前多模态大语言模型在感知与推理之间的脱节。