基于图柯尔莫哥洛夫复杂度的逻辑语法归纳:用于临床数据自愈完整性的神经符号框架

arXiv cs.LG 论文

摘要

提出了Logic-GNN,一种神经符号框架,通过时序图神经网络和图柯尔莫哥洛夫复杂度归纳出临床记录的符号语法,从而能够将数据录入错误检测为语法违规并进行纠正。该系统在一个大型医疗数据集上取得了0.94的F1分数,性能比现有最佳方法提升12%。

arXiv:2605.15242v1 公告类型:新 摘要:医疗信息系统(HIS)的可靠性经常受到人为数据录入错误的损害,现有的统计异常检测方法无法将这些错误与合法的临床极端值区分开来。本文提出Logic-GNN,一种新颖的神经符号框架,将临床记录视为由潜在逻辑博弈支配的结构化``私人语言''。通过集成时序图神经网络(TGNN)与图柯尔莫哥洛夫复杂度,我们归纳出一种符号语法,代表医疗交互的底层逻辑。我们将异常定义为导致临床图最小描述长度(MDL)显著扩展的``语法违规''。在Sina系统数据集(200万+记录)上评估,Logic-GNN实现了0.94的F1分数,在区分危及生命的医疗异常值与数据损坏方面,性能比现有最佳基线提升12%。我们的方法引入了一种自愈机制,能够建议逻辑修正以在实时HIS环境中维护数据完整性。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:38

# 基于图柯尔莫哥洛夫复杂度的逻辑语法归纳:面向自愈临床数据完整性的神经符号框架

**来源:** https://arxiv.org/html/2605.15242  
**作者:** Abolfazl Zarghani, Amir Malekesfandiari  
两位作者均隶属于伊朗马什哈德菲尔多西大学计算机工程系。电子邮箱: [email protected], [email protected]

###### 摘要

医疗信息系统(HIS)的可靠性常常受到人为数据录入错误的损害,而现有的统计异常检测方法无法将这些错误与合法的临床极端情况区分开来。本文提出 **Logic-GNN**,一个新颖的神经符号框架,它将临床记录视为由潜在逻辑博弈支配的结构化“私人语言”。通过将时序图神经网络(TGNN)与图柯尔莫哥洛夫复杂度相结合,我们归纳出一种表示医疗交互底层逻辑的符号语法。我们将异常定义为“语法违规”,这种违规会导致临床图的最小描述长度(MDL)显著增加。在 Sina 系统数据集(超过 200 万条记录)上评估,Logic-GNN 取得了 0.94 的 F1 分数,在区分危及生命的医疗异常值与数据损坏方面,比最先进的基线模型高出 12%。我们的方法引入了一种自愈机制,该机制建议逻辑校正以在实时 HIS 环境中维护数据完整性。

## 1 引言

医疗信息系统(HIS)已从基本的记录保存工具发展为大规模、高维度的数字存储库,如今已成为现代临床决策支持的基础。然而,正如近期关于受污染医疗数据集的大规模研究[10 (https://arxiv.org/html/2605.15242#bib.bib10)]所示,这些系统的可靠性常常因各种形式的人为噪声而受到损害。这些噪声包括随机文书错误以及系统性的逻辑不一致,给开发和部署稳健的预测模型带来了严峻挑战。这个问题在诸如 Sina 系统这类包含超过两百万条记录的集中式平台中尤为关键。

传统的机器学习异常检测方法通常依赖统计密度估计或基于距离的技术,将处于特征空间低密度区域的实例标记为异常。虽然这种方法在许多工业应用中很有效,但在临床领域却存在不足。在医学中,统计上罕见的事件往往代表着重大的、危及生命的状况,具有很高的临床价值。相比之下,许多数据录入错误虽然在数值上看似合理,但却违反了医疗保健的基本逻辑规则。这种局限性需要从纯粹的统计异常概念向结构化和符号化的数据完整性理解发生根本性转变。

这项工作的理论基础受路德维希·维特根斯坦后期哲学中“语言游戏”概念的启发。我们认为,临床数据库不仅仅是随机变量的被动集合,而是一个由隐含语法支配的逻辑交互动态系统。从这个角度来看,每条医疗记录都充当着一种私有临床语言中的“句子”。例如,为男性患者记录产科手术不仅仅是一个统计异常值;它构成了对系统底层逻辑语法的违反。

为了解决这些挑战,我们提出 **Logic-GNN**,一个新颖的神经符号框架,它将临床记录建模为时序异构图中的节点和交互。通过将时序图神经网络与图柯尔莫哥洛夫复杂度的概念相结合,该框架归纳出支配有效医疗交互的潜在符号语法。异常被正式定义为“语法违规”,这种违规会导致整个临床图的最小描述长度(MDL)显著增加。这种信息论表述使系统不仅能够检测不一致性,还能识别特定的规则违规行为。

Logic-GNN 的一个关键创新是其自愈能力。当检测到逻辑矛盾时,该框架识别被违反的约束,并通过基于梯度的图复杂度优化,提出修正性的修改建议。这允许在实时医疗环境中实现自动化或人机协同的数据完整性恢复。

此外,临床数据流会受到因不断演变的医疗规程、季节性健康趋势和临床实践变化而导致的“概念漂移”。正如我们在关于数据流自适应强化学习的先前工作[15 (https://arxiv.org/html/2605.15242#bib.bib15)]中所探讨的,静态检测方法是不够的。Logic-GNN 融入了自适应时序机制,允许归纳出的逻辑语法与现实的临床实践共同演进,从而在不惩罚合法医疗异常值的情况下保持高精度。

本文的主要贡献如下:

1.  1. 我们引入**图柯尔莫哥洛夫复杂度**,这是一种形式化的信息论度量,用于衡量高维临床图中节点的逻辑一致性。
2.  2. 我们提出一种可微分的**逻辑提取层**用于 GNN 架构,使模型能够直接从关系型医疗数据中学习并强制执行一阶逻辑约束。
3.  3. 我们在包含超过 **220 万条记录**的 Sina 医院信息系统数据集上进行了全面评估,证明了 Logic-GNN 在区分逻辑错误与合法临床极端情况方面显著优于最先进的基线模型,同时对噪声和概念漂移表现出强大的鲁棒性[10 (https://arxiv.org/html/2605.15242#bib.bib10),15 (https://arxiv.org/html/2605.15242#bib.bib15)]。

## 2 相关工作

### 2.1 图神经网络的架构演进

图神经网络(GNN)的发展格局已从静态空间聚合演进到动态的、感知时序的架构。正如 Waikhom 和 Patgiri[13 (https://arxiv.org/html/2605.15242#bib.bib13)] 所全面综述的那样,GNN 的分类现已涵盖监督、半监督和自监督设置。早期模型主要关注基于欧几里得的消息传递;然而,向非欧几里得领域的转变促使了更稳健的结构化特征学习。Ponzi 和 Napoli[12 (https://arxiv.org/html/2605.15242#bib.bib12)] 强调,GNN 架构的最新进展——特别是那些利用注意力机制的架构——显著提升了模型在复杂网络中捕获长程依赖的能力,这对于患者-医生交互通常稀疏且间歇的临床数据来说是一个关键需求。

### 2.2 临床领域的基于图的异常检测

由于合法生物信号的高变异性,医疗图中的异常检测面临着独特的挑战。先前的研究将这些任务分为结构异常值和基于属性的异常。我们之前的工作,**EpiGraph**[11 (https://arxiv.org/html/2605.15242#bib.bib11)],展示了将时序图神经网络(TGNN)与 LSTM 单元相结合以通过监控接触网络预测疾病爆发的有效性。尽管此类模型取得了高 AUC,但它们通常作为“黑箱”运行,未能弥合**可解释性鸿沟**。正如近期关于受污染临床数据集的案例研究[10 (https://arxiv.org/html/2605.15242#bib.bib10)] 所强调的,像孤立森林或传统自编码器等标准算法难以区分“医疗异常值”(罕见但有效的状况)和“逻辑异常”(数据录入错误),这使得向符号推理的转变势在必行。

### 2.3 神经符号集成与逻辑归纳

符号逻辑与神经架构的集成是一个新兴的前沿领域,旨在为 AI 预测提供形式化保证。Wu 等人[5 (https://arxiv.org/html/2605.15242#bib.bib5)] 讨论了向 GNN 内归纳逻辑编程的根本性转变,表明关系数据可以被建模为一组可学习的逻辑子句。然而,在实时医疗流中归纳这些规则的研究仍不充分。通过将临床交互视为维特根斯坦意义上的“语言游戏”,我们的框架试图学习 Sina 系统的底层语法。这与推动可解释 GNN[6 (https://arxiv.org/html/2605.15242#bib.bib6)] 的努力相一致,这些 GNN 不仅检测偏差,还通过符号约束解释偏差,从而确保检测到的异常对应的是对医疗协议的实际违反,而非统计噪声。

### 2.4 柯尔莫哥洛夫复杂度与最小描述长度

通过数据压缩进行异常检测的理论基础根植于柯尔莫哥洛夫复杂度的概念。Li 和 Vitányi[14 (https://arxiv.org/html/2605.15242#bib.bib14)] 提出,数据集的最高拟合解释是其最短描述。在图挖掘的背景下,这一原理通过最小描述长度(MDL)准则得以实施。虽然 MDL 在社区检测和图聚类中取得了成功,但其在高维、时变临床流中的应用因其固有的不可计算性而受到限制。我们的方法利用 TGNN 的预测能力作为近似压缩器。这种方法将检测任务从密度估计问题转化为复杂度最小化问题,从而允许对医疗记录中的“逻辑一致性”进行更严格的定义。

### 2.5 动态数据流中的自适应处理

像 Sina 系统这样的临床数据库并非静止不变;其特点是持续的“概念漂移”和变化的交互频率。自适应滑动窗口技术,正如我们在 RL-Window[15 (https://arxiv.org/html/2605.15242#bib.bib15)] 方面的并行研究中所探索的,已经表明强化学习可以根据流的频谱和时间特性优化窗口大小。这种自适应性对于基于柯尔莫哥洛夫复杂度的检测至关重要,因为“语法规则”的复杂度可能会随时间变化。将自适应窗口化与基于 GNN 的逻辑归纳相结合,确保了自愈机制在资源受限的 HIS 架构上保持计算效率,这是近期关于 GNN 可扩展性调查[9 (https://arxiv.org/html/2605.15242#bib.bib9)] 中识别出的一个差距。

## 3 方法

### 3.1 问题形式化

医疗信息系统(HIS)产生高度动态且异构的关系型数据流,包含患者、医生、实验室检查、处方、诊断、住院事件以及时序临床交互。传统的异常检测方法将异常解释为统计上的稀有性;然而,在罕见事件可能对应危及生命但有效的生理状态的医疗环境中,此类方法是不够的。

Logic-GNN 将异常检测重新表述为**时序临床图上的逻辑一致性**问题。该框架不再识别统计上远离数据分布的记录,而是检测违反支配有效医疗交互的潜在符号语法的记录。

我们将 HIS 形式化定义为动态异构图:

G\(^{\(t\)}\) = (V\(^{\(t\)}\), E\(^{\(t\)}\), X\(^{\(t\)}\))  (1)
其中:
- • V\(^{\(t\)}\) 表示时间 t 时的临床实体集合,
- • E\(^{\(t\)}\) 表示实体间的时序交互,
- • X\(^{\(t\)}\) 包含多模态节点属性。

Logic-GNN 的目标是同时:
1.  1. 学习一个潜在的神经符号语法 Γ,
2.  2. 估计图柯尔莫哥洛夫复杂度 (GKC),
3.  3. 识别逻辑不一致性,
4.  4. 生成自愈校正建议。

与纯粹基于欧几里得密度估计的传统方法不同,我们的框架将 HIS 建模为一种结构化符号语言,其完整性由可学习的逻辑约束支配。

Sina HIS 数据集 → 几何编码 → 时序 GAT 层 → 神经符号逻辑归纳 → 复杂度层 (MDL 近似) → 自愈 → 异常检测  
(V,E) → → Z_v^(t) → → L(G) → ∇K →  

**图 1:** Logic-GNN 的整体架构。该框架集成了时序图注意力、符号逻辑归纳和基于 MDL 的异常推理,用于自愈医疗数据完整性。

图 1 (https://arxiv.org/html/2605.15242#S3.F1) 说明了完整的 Logic-GNN 流水线。该框架首先使用时序图注意力网络 (TGAT) 将临床交互编码为几何潜在表示。然后,将得到的嵌入传递给一个神经符号推理模块,该模块负责归纳软一阶逻辑 (FOL) 子句。最后,最小描述长度 (MDL) 近似器评估每条临床记录的复杂度贡献,并在检测到逻辑不一致时触发自愈机制。

### 3.2 时序临床图构建

临床工作流自然展现出关系性和时序依赖性。因此,Logic-GNN 将原始 HIS 记录转换为能够保留时序因果关系的动态交互图。

每个节点对应一个医疗实体:
- • 患者,
- • 医生,
- • 实验室检查,
- • 处方,
- • ICD-10 诊断,
- • 住院事件。

边表示语义临床交互,包括:
- • 医生会诊,
- • 诊断分配,
- • 处方事件,
- • 实验室请求,
- • 时序随访。

时序注释被附加到边上,以保留患者轨迹的顺序演化。

患者 → 医生 (会诊) → 实验室检查 (请求) → ICD-10 (诊断)  
时序: t_1 → t_2

**图 2:** Logic-GNN 中的时序异构图构建。

如图 2 (https://arxiv.org/html/2605.15242#S3.F2) 所示,时序图同时保留了语义和时序依赖关系。这种设计使 Logic-GNN 能够对不断演变的医疗工作流进行建模,并检测那些随时间推移才会显现的不一致性。

### 3.3 几何表示学习

Logic-GNN 采用时序图注意力网络 (TGAT) 将关系型临床交互编码为潜在嵌入。

对于每个节点 v,隐藏表示根据以下公式更新:

h_v^(t+1) = σ( ∑_{u ∈ N(v)} α_uv^(t) W h_u^(t) )   (2)
其中:
- • N(v) 是时序邻域,
- • α_uv^(t) 表示注意力系数,
- • W 是可训练的投影矩阵。

与在欧几里得空间中运行的传统 GNN 不同,Logic-GNN 将节点嵌入到双曲潜在流形中。这种几何选择特别适合医疗系统,因为像 ICD-10 这样的医学分类法自然展现出层次结构。

因此,编码器捕获:
- • 时序依赖性,
- • 潜在层次组织,
- • 关系语义,
- • 长程临床相关性。

### 3.4 可微分神经符号逻辑归纳

由 TGAT 编码器生成的潜在嵌入被传递到一个

相似文章

面向数据敏感领域的LLM输出的神经符号验证(扩展预印本)

arXiv cs.AI

本文提出了一种针对高风险领域LLM输出的神经符号验证架构,结合形式化符号方法与神经语义分析。在一个医疗器械损伤评估系统上进行的评估显示,该架构对结构化实体的幻觉检测率超过83%,语义虚构的检测率达72%,报告创建时间缩短30%。