BaryGraph - 每个关系都是独立嵌入文档的知识图谱(而非边)[R]
摘要
BaryGraph 提出了一种新颖的知识图谱,其中每个关系都是一等嵌入文档(BaryEdge),而不是节点之间的边,从而能够实现递归抽象三元组,揭示相距遥远概念之间的结构桥梁。预印本中包含了基准测试,显示结构度量比单独使用余弦相似度更能与人类相似性判断相关联。
不同于节点--边-->节点的结构,每个关系都是一个一等文档,拥有自己的向量,称为 BaryEdge。递归地堆叠 BaryEdge 对,你会得到 "MetaBary" 三元组,它们揭示了嵌入空间中相距甚远的概念之间的结构桥梁。在本地运行于 MongoDB Community + mongot + nomic-embed-text 之上,覆盖整个英文维基词典(660 万文档)。MCP 服务器已上线,欢迎尝试。预印本和基准 CSV 文件:https://zenodo.org/records/20186500
我所追求的问题:平面向量搜索将关系视为两个点接近的副产品。这丢弃了信息。两篇论文可能描述了同一潜在现象(轨道力学中的飞越异常,恒星动力学中的异常残差),却从未相互引用,且它们的嵌入向量也相距甚远。标准 RAG 无法揭示这种联系。
我的做法:每个关系也被嵌入:bary_vector = normalize(q·v(CM1) + q·v(CM2) + (1−q)·v(type)) 其中 q 是连接质量,v(type) 是关系类型的上下文嵌入。这个 BaryEdge 现在本身就是一个可检索的文档——而不是边上的元数据。然后它递归:同一级别的两个 BaryEdge 由下方一级的第三个 BaryEdge 连接,形成 MetaBary 三元组。重复此过程,你将获得完全由代数构建的抽象三元组层级——在基础层之上无需额外的嵌入调用。这是一个森林(每个节点最多有一个父节点),因此到根的遍历只需一次 $graphLookup,无需循环处理。
它真的有用吗?在 SimLex-999 和 WordSim-353 上运行,作为合理性检查(并非主要主张,只是“基础是否连贯”)。原始余弦相似度与人类相似性判断几乎不相关(SimLex 上 ρ ≈ −0.04)。结构度量——两个词共享的 BaryEdge 数量、它们的关系邻域重叠程度——相关度达到 ρ ≈ 0.32–0.53,p < 10⁻¹⁵。因此,这个图谱编码了余弦单独无法捕捉的信息。
我真正关心的是跨领域桥接。来自实时图谱的一些探测轨迹:章鱼神经科学 ↔ 分布式传感器网络,通过共享的结构-主题词汇(神经架构、智能微尘)桥接;胶原折叠 ↔ 语言语法,通过词源和结构主题重叠(plicature / hypotaxis-parataxis)桥接;悲伤 ↔ 抑郁,未桥接——这是正确性演示,而非能力缺失。DSM-5 添加了备受争议的“丧亲排除”条款,正是因为悲伤和抑郁有相似的表层症状,但属于不同类型的状态,预后和治疗也不同;放射性衰变 ↔ 过时词汇逐渐废弃,在高级抽象层面上通过不同语域的变化动词(collapsed, decayed, declined, disintegrated)桥接——命名了一种泊松过程状态丢失模式,物理学家和历史语言学家都有实例,但没有单独的单词来描述。最后这种情况是平面检索在结构上无法产生的——没有嵌入轴对应“在不同领域与状态减少共现的动词”。
技术栈(全部本地、全部免费)GitHub:https://github.com/oleksiy-perepelytsya/bary-vector MongoDB Community Edition + mongot 用于存储/向量搜索 nomic-embed-text,768 维 Python 3.11+ 完整构建:约 666 万文档,单工作站(8-16GB VRAM)耗时 8-14 小时
尝试一下 MCP 服务器可按要求公开(SSE 传输)——用于搜索实时图谱的只读工具:find_word、semantic_search、edge_info、leaf_nodes、traverse_up、sample_metabary。如果你有支持 MCP 的客户端,你可以指向该图谱,几分钟内运行自己的探测查询。
我真正想要的反饋是:跨领域桥接在非我本人的人探索时是否站得住脚——尝试在你熟悉的领域对上运行探测查询,告诉我桥接是真的,还是我自己在模式匹配中看到了不存在的结构。有些桥接初看可能不明显,但实际上是最令人感兴趣的,值得探究其背后的原因,因此将其视为调查点。这是否值得与 GraphRAG/RAPTOR 风格的层级检索进行直接对比(我尚未进行该基准测试,并且我知道这是本版首先会问的)。是否有人尝试过结构类似的方法,但因某些我尚未遇到的问题而大规模失败。
预印本、架构规范以及原始的 SimLex/WordSim CSV 文件均在此处:https://zenodo.org/records/20186500 如果有兴趣,我乐意按要求提供 MCP 端点。
相似文章
GraphARC:基于图结构的抽象推理综合基准
GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。
colbymchenry/codegraph
CodeGraph 是一个开源工具,为代码库创建预索引的知识图谱,使 Claude Code 的探索代理能够即时查询符号关系和调用图,将工具调用次数减少高达 96%,探索时间减少 77%。
CORE:用于知识图谱补全的循环正交体关系嵌入
本文介绍了 CORE,这是一种新的知识图谱补全模型,通过在环面流形上使用循环正交体关系嵌入来解决基于区域的模型中的边界约束问题。实验表明,该模型在链接预测任务中表现出具有竞争力的性能。
使用知识图谱嵌入的自动化大数据质量评估
本文介绍了一种基于知识的方法,利用知识图谱嵌入,通过预测上下文表示与质量规则之间的缺失边来自动评估大数据质量,优于传统的匹配方法。
知识图谱中图到图语义相似性的测量:知识图谱嵌入的实证评估
本文介绍并实证评估了使用知识图谱嵌入测量知识图谱间语义相似性的方法,提出了EmbPairSim和AvgEmbSim评分函数,这些函数在WikiText-2和CC-News数据集上优于Sentence-BERT等基线方法。