基于检索的形式概念分析的可验证知识扩展
摘要
本文提出了一种基于检索的小型语言模型框架,将形式概念分析用作本体构建的符号验证循环,并在罕见共济失调场景中展示了其有效性。
arXiv:2607.01773v1 Announce Type: new
摘要:本体构建需要决定哪些对象、属性和结构关系应被接受为有效知识。语言模型可以从文本中提出此类结构,但其输出仍可能缺乏支持或不一致。本文提出了一种检索增强的小型语言模型(SLM)框架,将形式概念分析(FCA)用作知识扩展的符号验证循环。从种子属性出发,FCA在逐步增长的形式上下文上提出蕴含关系。随后,一个基于检索的SLM预言机验证每条蕴含或返回反例。该预言机还支持关联判断、一致性检查和属性提议,使得已接受的蕴含、反例、矛盾及修正均可审查。在基于Orphadata资源构建的罕见共济失调场景中,基于检索的10种子运行获得了0.29–0.52的关系F1和0.22–0.30的基于闭包的蕴含F1。更大的种子集增加了评估的蕴含数量,并通常提升蕴含F1。较低的蕴含分数反映了对派生蕴含的更严格评估,其中一条缺失或多余的关系可能影响多个蕴含判断。消融实验表明,在固定对象-属性设置下的关联判断可以提升基于闭包的蕴含分数。然而,即使候选对象和属性固定,识别正向对象-属性对仍然困难。
查看缓存全文
缓存时间: 2026/07/03 05:45
# 通过检索验证的知识扩展:基于形式概念分析的方法
来源:https://arxiv.org/html/2607.01773
\(2026\)
###### 摘要
本体构建需要决定哪些对象、属性以及结构关系应被接受为有效知识。语言模型可以从文本中提出这类结构,但其输出仍可能缺乏支持或存在不一致。本文提出一种检索增强的小型语言模型(SLM)框架,该框架使用形式概念分析(FCA)作为知识扩展的符号验证循环。从种子属性开始,FCA 在不断扩展的形式背景上提出蕴涵。随后,一个基于检索的 SLM 预言机验证每个蕴涵,或返回一个反例。该预言机还支持关联判断、一致性检查和属性提议,使得被接受的蕴涵、反例、矛盾以及修正均可被审查。在基于 Orphadata 资源构建的罕见共济失调场景中,基于检索的 10 个种子运行获得了 0.29–0.52 的关系 F1 分数和 0.22–0.30 的基于闭包的蕴涵 F1 分数。更大的种子集增加了被评估的蕴涵数量,并通常提高了蕴涵 F1 分数。较低的蕴涵分数反映了对推导蕴涵的更严格评估,其中一个遗漏或额外的关系就可能影响多个蕴涵判断。消融实验表明,在固定对象–属性设置中的关联判断可以改善基于闭包的蕴涵分数。然而,即使在候选对象和属性固定的情况下,识别正对象–属性对仍然困难。
形式概念分析、检索增强生成、本体构建、小型语言模型、罕见疾病表型
††期刊年份:2026††版权:权利保留††会议:第8届 epiDAMIK ACM SIGKDD 数据驱动公共卫生与人口健康决策研讨会;2026年8月10日;韩国济州岛††论文集:第8届 epiDAMIK ACM SIGKDD 数据驱动公共卫生与人口健康决策研讨会论文集,2026年8月10日,韩国济州岛††CCS:计算方法学 → 知识表示与推理††CCS:信息系统 → 信息检索††CCS:计算方法学 → 自然语言处理††CCS:应用计算 → 生命科学与医学 → 健康信息学
## 1. 引言
本体将领域知识转化为可共享、可查询、可检查、可复用的结构(Gruber, 1993 (https://arxiv.org/html/2607.01773#bib.bib1); Uschold and Gruninger, 1996 (https://arxiv.org/html/2607.01773#bib.bib2); Khadiret al., 2021 (https://arxiv.org/html/2607.01773#bib.bib14))。例如,在生物医学领域,类似本体的表示可以将罕见疾病对象与表型属性联系起来,并揭示这些表型之间的规律性(Robinsonet al., 2008 (https://arxiv.org/html/2607.01773#bib.bib21); Köhleret al., 2021 (https://arxiv.org/html/2607.01773#bib.bib22))。然而,手动构建此类结构成本高昂。领域专家必须检查源文档,编码对象-属性关系,并在新证据揭示缺失或不一致的知识时修订结构(Uschold and Gruninger, 1996 (https://arxiv.org/html/2607.01773#bib.bib2); Al-Aswadiet al., 2020 (https://arxiv.org/html/2607.01773#bib.bib15); Khadiret al., 2021 (https://arxiv.org/html/2607.01773#bib.bib14))。这使得本体和知识图谱构建成为语言模型辅助的自然场景,但领域特定知识中的错误使得不可验证的生成具有风险(Panet al., 2024 (https://arxiv.org/html/2607.01773#bib.bib16); Loet al., 2024 (https://arxiv.org/html/2607.01773#bib.bib20); Huanget al., 2025 (https://arxiv.org/html/2607.01773#bib.bib7))。因此,关键的技术挑战是在提议的知识成为结构承诺之前对其进行验证。例如,系统可能提议一种罕见共济失调疾病具有共济失调、小脑萎缩和震颤,也应有构音障碍。如果即使有一种疾病具有前三种表型但缺乏构音障碍,该规则就会被拒绝。因此,本体构建需要一种程序,该程序提出有针对性的结构性问题,并在提议的规律性失败时纳入反例(Ganteret al., 2016 (https://arxiv.org/html/2607.01773#bib.bib4))。形式概念分析(FCA)提供了这样的程序。其属性探索程序在形式背景上提出蕴涵,并在蕴涵无效时要求一个反例(Ganteret al., 1999 (https://arxiv.org/html/2607.01773#bib.bib3), 2016 (https://arxiv.org/html/2607.01773#bib.bib4))。
本文提出的框架将 FCA 与基于检索的 SLM 判断结合起来,用于罕见共济失调疾病。任务是构建一个基于标准化 HPO 标签(如共济失调、震颤、构音障碍)的疾病-表型形式背景。实际问题是,一个小型的种子属性集能否激活受控表型属性集中的有用部分,同时保持可验证的关联判断和蕴涵检查。在三个小型语言模型(SLM)上,系统在20轮中扩展背景,保留被接受的蕴涵、反例、矛盾和修正以供审查。
本文做出了三项贡献。
- • 一种基于 FCA 的验证循环,通过蕴涵和反例测试对象-属性结构。
- • 一种基于检索的 SLM 预言机,用于更低成本的基于证据的局部判断。
- • 一种符号-子符号混合方法,其中 FCA 控制构建过程,语言模型做出基于证据的局部决策。
综合来看,实验将该方法定位为一种可验证的构建程序,而非未检查的本体生成器。消融实验进一步将发现对象和属性集的难度与判断这些集合内关联的难度区分开来。
## 2. 背景
FCA 提供符号侧,通过将当前构建状态表示为形式背景,并用反例测试蕴涵。RAG 提供证据基础侧,通过为 SLM 预言机检索疾病级别的文本,将本体构建转化为一个可验证的循环,包括蕴涵查询、局部判断、反例和背景更新。
### 2.1. 形式概念分析与属性探索
形式概念分析(FCA)将对象-属性知识表示为一个称为形式背景的二元表(Ganteret al., 1999 (https://arxiv.org/html/2607.01773#bib.bib3))。在本文中,对象是罕见共济失调疾病,属性是表型标签。当一种疾病与一个表型相关联时,单元格被标记。例如,一种疾病可能具有共济失调、震颤和构音障碍,而另一种疾病可能具有共济失调和震颤,但没有构音障碍。形式概念由一个外延(概念中的对象集)和一个内涵(这些对象共享的属性)组成。蕴涵描述了表中的规律性。蕴涵 \(A \rightarrow B\) 意味着每个具有 \(A\) 中所有属性的对象也具有 \(B\) 中所有属性。例如,\(\{Ataxia, Tremor\} \rightarrow \{Dysarthria\}\) 表明每种具有共济失调和震颤的疾病也有构音障碍。这样的规则只有在通过反例检查时才有用。一个具有共济失调和震颤但没有构音障碍的疾病会拒绝该规则。
属性探索将这些规律性转化为预言机问题。遵循《概念探索》中的算法19(Ganteret al., 2016 (https://arxiv.org/html/2607.01773#bib.bib4)),将目标领域背景 \((G, M, I)\) 与第 \(\tau\) 轮观察到的部分背景 \((E_\tau, M_\tau, J_\tau)\) 区分开来。这里,\(G\) 是领域对象集,\(M\) 是有限属性集,\(I\) 是目标关联关系,\(E_\tau\) 是观察到的对象集,\(M_\tau\) 是活跃属性集,\(J_\tau\) 记录已检查的关联。闭包 \(A^{J_\tau J_\tau}\) 是当前观察到的、具有 \(A\) 中所有属性的对象所共享的属性集。探索查询询问观察到的蕴涵 \(A \rightarrow A^{J_\tau J_\tau}\) 是否在目标领域中也成立。如果预言机接受该查询,则蕴涵被添加到蕴涵基中。如果预言机拒绝它,则预言机必须返回一个反例对象 \(g\),使得 \(A \subseteq g^I\) 但 \(A^{J_\tau J_\tau} \nsubseteq g^I\)。反例被添加到观察背景中,防止相同的过度泛化规则再次被接受。经典属性探索假设 \(M\) 从一开始就是固定的;在可靠的专家和固定的有限 \(M\) 下,它可以返回一个规范的蕴涵基。遵循《概念探索》中 FCA 的用法,该术语指的是固定形式背景的完整且非冗余的蕴涵基。背景的每个有效蕴涵都可以从该基推导出来,并且没有一个被接受的蕴涵被视为背景之外的自由文本规则。在本文中,FCA 和属性探索提供了提出蕴涵、检查反例以及更新疾病-表型背景的符号机制。
### 2.2. 检索增强生成
检索增强生成解决了纯参数化语言模型的一个核心局限性。事实决策应基于可检查或可更新的外部证据。Lewis 等人 (Lewiset al., 2020 (https://arxiv.org/html/2607.01773#bib.bib5)) 将 RAG 引入为一种将参数化生成与非参数化检索相结合的方法,用于知识密集型 NLP 任务。在本体构建中,检索很有用,因为对象-属性关系和蕴涵需要基于证据的敏感判断。如果没有检索到的证据,语言模型必须仅凭参数记忆来回答,这可能会产生无支持或不正确的关系。检索到的证据为模型提供了在做出每个局部判断之前需要参考的任务相关信息。提供检索到的证据可以改善仅依赖参数化生成的性能,特别是在知识导向的对话和其他知识密集型任务中 (Shusteret al., 2021 (https://arxiv.org/html/2607.01773#bib.bib6); Huanget al., 2025 (https://arxiv.org/html/2607.01773#bib.bib7))。在本文中,检索到的证据用于回答局部对象-属性和蕴涵有效性问题。
### 2.3. 小型语言模型
大型语言模型在开放式生成和多步推理方面仍然具有优势。然而,FCA 循环中所需的决策比开放式生成更为狭窄。它们是重复的、基于证据的是/否判断,涉及局部对象-属性分配或候选蕴涵。在这种情况下,最大准确性并非唯一考虑因素。推理成本、延迟、内存占用和本地可部署性也很重要。这种对模型规模的依赖任务观点得到了文本分类方面先前工作的支持,其中专门的小型模型可以在有限数量的标注示例下达到或超过通用大型模型的性能 (Pecheret al., 2025 (https://arxiv.org/html/2607.01773#bib.bib12))。工业研究也支持这一点,表明较小的 Transformer 模型可以处理实际的分类工作负载,同时提供更好的部署效率 (Liet al., 2025 (https://arxiv.org/html/2607.01773#bib.bib13))。这些发现与使用 SLM 进行基于检索证据的约束分类风格判断(而不是长篇推理或自由形式的本体生成)相符。因此,SLM 并不是在复杂推理中替代 LLM,但当任务可以简化为重复的、基于证据的是/否决策时,它们是一种成本效益高的选择。
## 3. 方法
本节描述如何将符号组件和基于检索的组件组合成一个单一的本体构建循环。该框架从种子属性开始,并使用 FCA 属性探索生成蕴涵查询。对于每个查询,系统首先检索与前提和结论相关的疾病级别证据。然后,SLM 预言机使用检索到的证据来接受蕴涵或搜索反例。形式背景随后用被接受的蕴涵或反例对象进行更新。与经典的属性探索不同,此设置保留了一个有限的受控表型属性集,但逐步激活它。循环从种子属性 \(M_0\) 开始,仅探索活跃属性集 \(M_\tau\),然后为下一轮添加一组选定的新属性 \(\Delta M_\tau\)。每一轮都保留基于 FCA 的验证步骤。整个过程测试一个小型种子集能否扩展到 \(M\) 中有用的部分,同时避免未检查的自由文本本体生成。以下段落定义了轮次状态、背景更新、预言机决策和记录的人工产物。
参见图标题 图1. 基于 RAG 的 SLM-FCA 框架概览。RAG 基础的 SLM-FCA 框架的流程图,显示了 FCA 探索循环、基于检索的预言机决策、反例验证以及蕴涵引导的属性发现更新。
### 3.1. 基于 RAG 的 SLM-FCA 框架
所提出的方法将上述 FCA 和 RAG 组件组合成一个单一的可验证构建循环。图1 (https://arxiv.org/html/2607.01773#S3.F1) 总结了该循环的六个阶段。以下段落定义了该循环的主要组件,从受控属性选择到下一轮的属性筛选。
**受控属性集。** 该方法从探索之前提供的有限领域属性集 \(M\) 开始,并在第一轮中仅激活一个种子子集 \(M_0\)。在图1 (https://arxiv.org/html/2607.01773#S3.F1) 中,术语“受控词汇表”指的是有限领域属性集 \(M\),即该方法考虑的表型属性的完整受控集。种子集被选择为覆盖属性集的多样化、可解释的区域,而不是单个狭窄的属性簇。好的种子应该是证据可访问的、非冗余的,并且足够频繁以产生早期反例,同时还要足够具体以避免接受过于宽泛的蕴涵。第4节中的罕见共济失调实验使用此标准来选择临床可解释的种子属性。
**激活形式背景。** 初始背景包含种子属性但不包含种子对象,被拒绝的初始查询引入了第一批反例。在第 \(\tau\) 轮,活跃状态是形式背景 \((E_\tau, M_\tau, J_\tau)\),其中 \(E_\tau\) 是观察到的对象集,\(M_\tau\) 是活跃属性集,\(J_\tau\) 记录已检查的关联。
**FCA 探索。** 在第 \(\tau\) 轮,FCA 属性探索在当前属性集 \(M_\tau\) 和示例背景 \((E_\tau, M_\tau, J_\tau)\) 上运行,产生候选蕴涵 \(A \rightarrow A^{J_\tau J_\tau}\)。这里,\(J_\tau\) 是当前观察到的关联关系,\(A^{J_\tau J_\tau}\) 是 \(A\) 的当前闭包,即所有观察到的、具有 \(A\) 中每个属性的对象所共享的属性。为便于阅读,算法1 (https://arxiv.org/html/2607.01773#alg1) 将相同的闭包写为 \(\operatorname{cl}_{K_\tau}(A)\),其中 \(K_\tau = (E_\tau, M_\tau, J_\tau)\)。当一个蕴涵在当前背景中尚未闭合时,基于检索的预言机要么返回一个已验证的反例对象,要么接受该蕴涵。相似文章
宁迟勿早:基于本体后提取校正的神经符号知识图谱构建
本文提出了一种神经符号框架,通过将一致性校正推迟到后提取阶段,从文本中构建基于本体的知识图谱,从而减少令牌使用,同时提高知识图谱的一致性并保持问答性能。
KARLA: 基于知识库增强检索的语言模型
KARLA 提出了一种方法,让大型语言模型在生成过程中查询知识库,从而无需重新训练即可更新事实知识,并提高透明度。实验表明,该方法在短文本和长文本生成中均提升了事实依据性。
面向以对象为中心的视觉推理的弱监督概念学习
本文提出了一种两阶段的神经符号框架,利用弱监督(仅需 1% 的标签)结合基于 Slot 的变分自编码器(VAE),学习用于以对象为中心的视觉推理的可解释符号,在领域泛化方面优于基础模型。
迈向细粒度且可验证的Concept Bottleneck Models
本文提出了一种细粒度的Concept Bottleneck Model框架,将每个概念锚定在局部视觉证据上,从而能够直接验证概念的正确性,并提高医学成像任务的透明度。
微宏观检索:减少大型语言模型的长文本幻觉
本文介绍了微宏观检索(M2R),一种边检索边生成的框架,通过确保关键信息紧邻生成文本,减少长文本LLM输出中的幻觉。它使用基于课程学习的强化学习来训练检索和接地技能,在长上下文场景中尤其有效。