使用知识图谱嵌入的自动化大数据质量评估

arXiv cs.LG 论文

摘要

本文介绍了一种基于知识的方法,利用知识图谱嵌入,通过预测上下文表示与质量规则之间的缺失边来自动评估大数据质量,优于传统的匹配方法。

arXiv:2605.18833v1 公告类型:新 摘要:自动化数据质量评估对于管理大数据至关重要,但现有解决方案在实现准确的上下文感知评估方面面临挑战。本文提出了一种新颖的基于知识的方法来增强自动化数据质量评估。我们的方法利用知识图谱嵌入,预测输入数据集的上下文表示与知识图谱中相关质量规则和维度之间的缺失边,该知识图谱表示上下文数据特征和所需的质量评估操作。我们通过整合知识图谱中的多样化表示,借鉴了从全面文献调研中获得的上下文信息,从而超越了传统实践。这种整合使我们能够针对每种上下文制定全面且特定于上下文的数据质量评估计划。利用知识图谱提高了我们对输入数据集上下文的理解,克服了传统方法仅依赖严格匹配而忽略上下文特征的局限性。通过注入数值边属性,我们为每个预测的质量测量分配相应的权重,为输入数据集提供全面的数据质量评估计划。 为了评估我们的方法,我们利用了AmpliGraph,这是一个由AccentureLabs开发和基准测试的框架。评估涉及使用黎巴嫩原子能委员会(LAEC-CNRS)提供的真实世界辐射传感器数据集。评估结果表明,我们的解决方案能够为给定的输入数据集生成全面的数据质量评估计划。
查看原文

相似文章