视觉感知到概念的一阶规则学习网络 [R]

Reddit r/MachineLearning 2026/05/07 01:00 论文
摘要
本文介绍了gammaILP，一个完全可微的框架，能够直接从图像数据中学习一阶规则，且无标签泄露，解决了符号接地和谓词发明等挑战。
我真的很想知道，因为我最近看到了一些来自ILP领域的论文，比如上面引用的以及其他论文 \[[1](https://arxiv.org/abs/2506.06739), [2](https://arxiv.org/abs/2604.06838)\]。看起来他们正在忙碌地研究。在主链接的论文中，他们正在处理纯图像数据集和谓词归纳，我之前读到过这对ILP来说非常困难。他们声称性能强劲。ILP能否在深度学习/神经网络主导的领域（如机器视觉）中具有竞争力，稳定吗？
查看原文导出为 Word 导出为 PDF
查看缓存全文
缓存时间: 2026/05/08 10:31
# 视觉感知到概念的一阶规则学习网络  
来源：https://arxiv.org/html/2604.07897  

**Kun Gao**  
中关村学院，北京，中国  
gaokun@bza\.edu\.cn  

**Davide Soldà & Thomas Eiter**  
维也纳工业大学（TU Wien），维也纳，奥地利  
davide\.solda@tuwien\.ac\.at, eiter@kr\.tuwien\.ac\.at  

###### 摘要  

规则学习在深度学习中扮演着关键角色，尤其是在可解释人工智能和增强大型语言模型推理能力方面。虽然现有规则学习方法主要针对符号数据设计，但在没有图像标签支持的情况下从图像数据学习规则并自动发明谓词仍然是一个挑战。在本文中，我们通过一个名为 γILP 的框架来解决这些来自图像的归纳规则学习问题，该框架提供了从图像常量代入到规则结构归纳的完全可微管道。大量实验表明，γILP 不仅在经典符号关系数据集上取得了强劲性能，而且在关系图像数据和纯图像数据集（如 Kandinsky 图案）上也表现优异。  

## 1 引言  

随着人工智能的发展，自动学习规则变得日益重要。学习到的规则作为可解释的表示，使系统能够更好地泛化（Liu 等，2023 (https://arxiv.org/html/2604.07897#bib.bib35)；Xie 等，2025 (https://arxiv.org/html/2604.07897#bib.bib36)），并为输入数据提供透明的解释（Kaur 等，2023 (https://arxiv.org/html/2604.07897#bib.bib37)；Gao 等，2025 (https://arxiv.org/html/2604.07897#bib.bib24)）。超越命题规则，一阶规则允许在一般层面上描述常量之间的属性和关系；这种表达能力在可信应用中非常需要（Dwivedi 等，2023 (https://arxiv.org/html/2604.07897#bib.bib62)）。  

在一阶规则学习领域，大多数现有方法（Gao 等，2024 (https://arxiv.org/html/2604.07897#bib.bib23)；Hocquette 等，2024 (https://arxiv.org/html/2604.07897#bib.bib67)；Cropper 和 Muggleton，2016 (https://arxiv.org/html/2604.07897#bib.bib68)）设计用于从关系符号数据中学习。尽管它们高效，但多模态数据的日益增多使得从具有图像常量的知识图谱中学习规则（Cunnington 等，2023 (https://arxiv.org/html/2604.07897#bib.bib56)；Shindo 等，2023 (https://arxiv.org/html/2604.07897#bib.bib29)）变得越来越重要。然而，从**关系图像域**进行归纳规则学习的一个挑战是没有标签泄漏的**符号接地**：在没有显式监督的情况下，无法将视觉输入接地到形式系统中的符号变量（Topan 等，2021 (https://arxiv.org/html/2604.07897#bib.bib39)；Harnad，1990 (https://arxiv.org/html/2604.07897#bib.bib54)）。因此，当从图像输入归纳构建规则时，现有方法被认为可以访问图像常量的标签信息（Evans 等，2021 (https://arxiv.org/html/2604.07897#bib.bib33)；Evans 和 Grefenstette，2018 (https://arxiv.org/html/2604.07897#bib.bib28)；Shindo 等，2023 (https://arxiv.org/html/2604.07897#bib.bib29)），这被视为**标签泄漏**。在本文中，我们假设归纳学习过程中既不需要也不泄露图像符号标签，从而减少人工工作量并实现从原始数据中完全自动化的规则学习。  

此外，目标事件的关系描述缺失通常需要引入新的谓词，这是**归纳逻辑编程**（ILP）（Muggleton 和 Buntine，1988 (https://arxiv.org/html/2604.07897#bib.bib49)；Kok 和 Domingos，2007 (https://arxiv.org/html/2604.07897#bib.bib38)）中一个称为**谓词发明**的基本挑战。在本文中，我们提出了一种新颖的归纳规则学习框架 γILP，该框架从基于图像的常量中学习规则，这些常量既具有预定义的常量关系（例如，关系图像数据），也具有隐式或未定义的常量关系（例如，Kandinsky 图像数据）。当从没有关系的数据中学习时，我们进一步创建适当的概念作为学习规则中的关系，以描述图像实例类别。  

所提出的方法是完全可微的：它将常量嵌入作为神经网络的输入，并通过分析训练良好的神经网络的参数来学习规则。更详细地说，我们使用预训练编码器来嵌入图像常量以及在定义关系时嵌入关系。当关系缺失时，我们首先使用谓词占位符生成规则。我们通过分析 γILP 输出中由变量表示的图像常量和变量的顺序来解释谓词占位符的语义。此外，我们利用多模态 LLM 将这些占位符谓词的语义翻译为自然语言格式，从而捕获常量之间的关系。  

简要总结，本文的主要贡献如下：首先，我们开发了一个完全可微的归纳推理过程，该过程在潜在空间中运行，其中常量代入和规则结构归纳通过 GPU 上的张量操作完成。其次，我们提出了 γILP 框架，用于从关系图像数据中学习规则，无需符号图像常量标签，避免了标签泄漏并实现了符号接地。第三，我们通过分析学习规则中由变量表示的学习图像常量来处理谓词发明，并利用 LLM 作为翻译器生成符号谓词语义。据我们所知，γILP 是第一个提供上述所有功能的系统。我们的实验表明，γILP 不仅在经典符号关系数据集上，而且在关系图像数据和纯图像数据集 Kandinsky 图案（Müller 和 Holzinger，2021 (https://arxiv.org/html/2604.07897#bib.bib34)）上都表现出强劲性能。  

**组织结构。** 我们在第 2 节 (https://arxiv.org/html/2604.07897#S2) 回顾了规则学习的相关工作，随后在第 3 节 (https://arxiv.org/html/2604.07897#S3) 介绍了逻辑程序、ILP 和编码器架构的预备知识。在第 4 节 (https://arxiv.org/html/2604.07897#S4) 中，我们介绍了所提出的方法，包括知识库生成器、可微代入机制和谓词发明任务。我们在第 5 节 (https://arxiv.org/html/2604.07897#S5) 展示了实验结果，在第 6 节 (https://arxiv.org/html/2604.07897#S6) 进行了结论和未来工作，代码位于：drive\.google\.com/drive/folders/10x\-TXo2nJuoZTPKDz\-sbybgBnC\-Rvcwo?usp=sharing (https://drive.google.com/drive/folders/10x-TXo2nJuoZTPKDz-sbybgBnC-Rvcwo?usp=sharing)。  

## 2 相关工作  

#### ILP 方法。  
归纳逻辑编程（ILP）由 Muggleton（1991 (https://arxiv.org/html/2604.07897#bib.bib25)）提出，用于归纳与背景知识结合推演正例的规则。符号 ILP 方法（Cropper 和 Dumancic，2022 (https://arxiv.org/html/2604.07897#bib.bib52)）通常采用自顶向下策略（例如 FOIL（Quinlan，1990 (https://arxiv.org/html/2604.07897#bib.bib26)））、自底向上方法（例如 CIGOL（Muggleton 和 Buntine，1988 (https://arxiv.org/html/2604.07897#bib.bib49)））或混合方法如 Aleph（Srinivasan，2001 (https://arxiv.org/html/2604.07897#bib.bib27)）来发现逻辑规则。这些系统没有与神经网络集成以利用 GPU 进行可扩展学习。基于解释转换的学习（Inoue 等，2014 (https://arxiv.org/html/2604.07897#bib.bib20)）是一个 ILP 框架，从输入-输出对中学习命题规则，并已集成到神经网络中（Gao 等，2022b (https://arxiv.org/html/2604.07897#bib.bib21)）。Baugh 等（2023 (https://arxiv.org/html/2604.07897#bib.bib55)；2025 (https://arxiv.org/html/2604.07897#bib.bib57)）提出了一种神经网络学习命题规则来描述多类数据。这里的挑战在于学习一阶规则。为了利用 GPU 计算，Evans 和 Grefenstette（2018 (https://arxiv.org/html/2604.07897#bib.bib28)）提出了 ∂ILP，该方法通过可微操作中的逻辑模板从符号输入中学习规则。DFORL（Gao 等，2024 (https://arxiv.org/html/2604.07897#bib.bib23)）通过自底向上的命题化（França 等，2014 (https://arxiv.org/html/2604.07897#bib.bib69)）从符号数据中学习一阶规则，但其在代入上的不可微过程阻止了与规则学习网络的端到端训练。NeurRL（Gao 等，2025 (https://arxiv.org/html/2604.07897#bib.bib24)）将该网络扩展到以可微方式从原始时间序列中学习规则，但它忽略了原始图像数据之间的关系（Evans 和 Grefenstette，2018 (https://arxiv.org/html/2604.07897#bib.bib28)）。γILP 以自底向上的方式学习规则，无需任何预定义的逻辑模板，并且从接地代入到规则归纳完全可微。  

#### 符号接地。  
αILP（Shindo 等，2023 (https://arxiv.org/html/2604.07897#bib.bib29)）从视觉输入中归纳逻辑程序，包括一个训练好的感知模块和一个符号事实转换器。Cunnington 等（2024 (https://arxiv.org/html/2604.07897#bib.bib58)）用 LLM 替换了转换器，而（Evans 和 Grefenstette，2018 (https://arxiv.org/html/2604.07897#bib.bib28)；Evans 等，2021 (https://arxiv.org/html/2604.07897#bib.bib33)）使用预测的符号图像标签用于可微推理模型。Wang 等（2019 (https://arxiv.org/html/2604.07897#bib.bib40)）应用神经网络解决带图像符号标签的最大可满足性问题。所有这些方法都依赖图像符号标签作为推理模块的输入。在可满足性问题中，Topan 等（2021 (https://arxiv.org/html/2604.07897#bib.bib39)）强调了符号接地，并表明没有显式监督就无法达到预期性能。意识到这一点，γILP 在没有符号标签的情况下从图像中归纳规则，而是使用图像表示，从而防止标签泄漏。  

#### LLM 与 ILP。  
Creswell 和 Shanahan（2022 (https://arxiv.org/html/2604.07897#bib.bib42)）；Han 等（2024 (https://arxiv.org/html/2604.07897#bib.bib43)）讨论了使用 LLM 在自然语言下的演绎推理能力。Li 等（2025 (https://arxiv.org/html/2604.07897#bib.bib71)）测试了 LLM 在观察到的事实上的归纳推理能力，这些事实并没有用一阶语言形式化描述。在 ILP 设置下，de Souza 等（2025 (https://arxiv.org/html/2604.07897#bib.bib70)）提出了一种系统方法论来分析 LLM 的 ILP 能力和局限性。我们进一步用具有最先进推理能力的 LLM 测试其 ILP 能力。Gentili 等（2025 (https://arxiv.org/html/2604.07897#bib.bib73)）利用 LLM 仅基于提供的带有谓词占位符的逻辑规则，用自然语言语义重命名谓词占位符。然而，γILP 通过分析由变量表示的学习常量来发明关系的语义，并利用 LLM 将这些语义翻译为自然语言格式。  

## 3 预备知识  

### 3.1 逻辑程序  

我们考虑一个**一阶**语言 L = (R, F, C, V)（Lloyd，1984 (https://arxiv.org/html/2604.07897#bib.bib18)），其中 R、F、C 和 V 分别表示（可数）谓词符号、函数符号、常量和变量的集合。一个**项** t 是一个常量、一个变量，或者表达式 f(t₁, ..., tₙ)，其中 f 是一个 n 元函数符号，t₁, ..., tₙ 是项。一个**原子**形式为 p(t₁, ..., tₙ)，其中 p 是一个 n 元谓词符号。一个**文字**是一个原子或其否定。一个**子句**是文字的有限析取。一个**规则**（或**定子句**）是恰好有一个正文字的子句，可以写成：α₀ ∨ ¬α₁ ∨ … ∨ ¬αₙ，或者在蕴含形式中等价地写成：α₀ ← α₁, α₂, ..., αₙ，其中 α₀ 称为规则的**头部**（记为 head(r)），而 {α₁, ..., αₙ} 是**体部**（记为 body(r)）。体部中的每个 αᵢ 称为**体原子**。头部原子中的变量是**头部变量**；仅出现在体部中的变量是**辅助变量**。一个**事实**是体部为空的规则。一个**逻辑程序** P 是一组规则。在一阶逻辑中，项、原子、子句等如果**不含变量**则称为**基**的。一个**代入**是有限集合 θ = {V₁/t₁, ..., Vₙ/tₙ}，其中每个 Vᵢ 是不同变量，每个 tᵢ 是一个不同于 Vᵢ 的项。一个**基代入**仅包含基项。对于原子 α，表达式 αθ 表示通过将基代入 θ 应用于 α 中的变量而获得的基原子。此外，逻辑程序 P 中所有规则的基实例集合记为 ground(P)。逻辑程序 P 的**Herbrand 基** Bₚ 是根据 P 中的谓词符号和常量可构造的所有基原子的集合。一个**解释**是 Bₚ 的子集 I，包含被视为真的基原子。P 的语义基于**直接后果算子**（van Emden 和 Kowalski，1976 (https://arxiv.org/html/2604.07897#bib.bib50)；Lloyd，1984 (https://arxiv.org/html/2604.07897#bib.bib18)）Tₚ: 2^{Bₚ} → 2^{Bₚ}，定义为：Tₚ(I) = { head(r) | r ∈ ground(P), body(r) ⊆ I }。  

### 3.2 归纳逻辑编程  

在蕴含学习中（Muggleton 和 De Raedt，1994 (https://arxiv.org/html/2604.07897#bib.bib51)；Evans 和 Grefenstette，2018 (https://arxiv.org/html/2604.07897#bib.bib28)），一个具体的 ILP 学习任务旨在针对给定的三元组 (B, 𝒫, 𝒩) 生成一个逻辑程序 P，该程序推演出由**目标谓词** pₜ 表示的目标概念。这里，B 表示称为**背景知识**的一组基原子，𝒫 和 𝒩 分别是表示真实实例（**正例**）和虚假实例（**负例**）的基原子集 pₜ(c₁, ..., cₙ)。一个逻辑程序 P 是 (B, 𝒫, 𝒩) 的**解**，如果 B ∪ P 蕴含 𝒫 中的所有正例，并且不蕴含 𝒩 中的任何负例。具有目标谓词 pₜ 的原子称为**目标原子**。在**命题**逻辑中，每个原子相当于一个布尔变量。当学习命题逻辑程序（Inoue 等，2014 (https://arxiv.org/html/2604.07897#bib.bib20)）时，一个解释 I 包含逻辑程序中任何规则体部中出现的所有原子的布尔值，而另一个解释 J 包含头部原子的布尔值。学习到的逻辑程序 P 满足 Tₚ(I) = J 对于所有的 (I, J) ∈ E，其中 E 是一组解释对。Gao 等（2022a (https://arxiv.org/html/2604.07897#bib.bib22)）使用命题化通过将所有可能的体原子和目标原子与代入接地来构建解释转换，以学习一阶逻辑程序。一个输入解释向量 x 代表...
视觉感知到概念的一阶规则学习网络 [R]

相似文章

用于零样本逻辑规则归纳的基础模型

通过工具监督强化学习实现视觉推理

强化学习能否教会大型语言模型进行长程推理？表达力是关键

PRISM：用于顺序决策的感知与推理交织方法

逻辑正则化验证器激发大语言模型的推理能力

提交意见反馈