使用知识图谱嵌入的自动化大数据质量评估
摘要
本文介绍了一种基于知识的方法,利用知识图谱嵌入,通过预测上下文表示与质量规则之间的缺失边来自动评估大数据质量,优于传统的匹配方法。
arXiv:2605.18833v1 公告类型:新
摘要:自动化数据质量评估对于管理大数据至关重要,但现有解决方案在实现准确的上下文感知评估方面面临挑战。本文提出了一种新颖的基于知识的方法来增强自动化数据质量评估。我们的方法利用知识图谱嵌入,预测输入数据集的上下文表示与知识图谱中相关质量规则和维度之间的缺失边,该知识图谱表示上下文数据特征和所需的质量评估操作。我们通过整合知识图谱中的多样化表示,借鉴了从全面文献调研中获得的上下文信息,从而超越了传统实践。这种整合使我们能够针对每种上下文制定全面且特定于上下文的数据质量评估计划。利用知识图谱提高了我们对输入数据集上下文的理解,克服了传统方法仅依赖严格匹配而忽略上下文特征的局限性。通过注入数值边属性,我们为每个预测的质量测量分配相应的权重,为输入数据集提供全面的数据质量评估计划。
为了评估我们的方法,我们利用了AmpliGraph,这是一个由AccentureLabs开发和基准测试的框架。评估涉及使用黎巴嫩原子能委员会(LAEC-CNRS)提供的真实世界辐射传感器数据集。评估结果表明,我们的解决方案能够为给定的输入数据集生成全面的数据质量评估计划。
相似文章
增强元认知AI:基于图论的大语言模型富集的知识图谱填充
MetaKGEnrich是一个全自动流水线,使用图指标检测大语言模型应用中的知识缺口,检索网络证据,并在三个基准数据集上将答案质量提升80%-87%。
用于评估知识图谱构建方法和图神经网络的统一基准
本文介绍了一个统一的基准测试,旨在评估图神经网络在基于文本构建的噪声知识图谱上的鲁棒性,以及生物医学领域图构建方法的有效性。
MHGraphBench:基于知识图谱的大语言模型心理健康知识基准测试
本文介绍了MHGraphBench,这是一个基于知识图谱的基准测试,用于评估大语言模型在心理健康知识方面的能力,包括实体识别、关系判断和多跳推理。对15个LLM的实验揭示了识别能力与判断能力之间存在差距。
知识图谱调制的深度学习用于有限样本临床数据分析
GiG是一个知识图谱调制的深度学习框架,它将生物知识图谱整合为边,患者特定数据作为节点特征,在有限样本临床任务中性能比现有最佳方法高出高达49%。
通过增强负采样提升知识图谱基础模型
提出了KMAS,一种自适应负采样方法,用于改进知识图谱基础模型的训练,在44个数据集上取得了最先进的结果。