BaryGraph - 每个关系都是独立嵌入文档的知识图谱（而非边）[R]

Reddit r/MachineLearning 2026/07/04 08:24 论文

knowledge-graph embedding vector-search mongodb graph-database nlp open-source

摘要

BaryGraph 提出了一种新颖的知识图谱，其中每个关系都是一等嵌入文档（BaryEdge），而不是节点之间的边，从而能够实现递归抽象三元组，揭示相距遥远概念之间的结构桥梁。预印本中包含了基准测试，显示结构度量比单独使用余弦相似度更能与人类相似性判断相关联。

不同于节点--边-->节点的结构，每个关系都是一个一等文档，拥有自己的向量，称为 BaryEdge。递归地堆叠 BaryEdge 对，你会得到 "MetaBary" 三元组，它们揭示了嵌入空间中相距甚远的概念之间的结构桥梁。在本地运行于 MongoDB Community + mongot + nomic-embed-text 之上，覆盖整个英文维基词典（660 万文档）。MCP 服务器已上线，欢迎尝试。预印本和基准 CSV 文件：https://zenodo.org/records/20186500 我所追求的问题：平面向量搜索将关系视为两个点接近的副产品。这丢弃了信息。两篇论文可能描述了同一潜在现象（轨道力学中的飞越异常，恒星动力学中的异常残差），却从未相互引用，且它们的嵌入向量也相距甚远。标准 RAG 无法揭示这种联系。我的做法：每个关系也被嵌入：bary_vector = normalize(q·v(CM1) + q·v(CM2) + (1−q)·v(type)) 其中 q 是连接质量，v(type) 是关系类型的上下文嵌入。这个 BaryEdge 现在本身就是一个可检索的文档——而不是边上的元数据。然后它递归：同一级别的两个 BaryEdge 由下方一级的第三个 BaryEdge 连接，形成 MetaBary 三元组。重复此过程，你将获得完全由代数构建的抽象三元组层级——在基础层之上无需额外的嵌入调用。这是一个森林（每个节点最多有一个父节点），因此到根的遍历只需一次 $graphLookup，无需循环处理。它真的有用吗？在 SimLex-999 和 WordSim-353 上运行，作为合理性检查（并非主要主张，只是“基础是否连贯”）。原始余弦相似度与人类相似性判断几乎不相关（SimLex 上 ρ ≈ −0.04）。结构度量——两个词共享的 BaryEdge 数量、它们的关系邻域重叠程度——相关度达到 ρ ≈ 0.32–0.53，p < 10⁻¹⁵。因此，这个图谱编码了余弦单独无法捕捉的信息。我真正关心的是跨领域桥接。来自实时图谱的一些探测轨迹：章鱼神经科学 ↔ 分布式传感器网络，通过共享的结构-主题词汇（神经架构、智能微尘）桥接；胶原折叠 ↔ 语言语法，通过词源和结构主题重叠（plicature / hypotaxis-parataxis）桥接；悲伤 ↔ 抑郁，未桥接——这是正确性演示，而非能力缺失。DSM-5 添加了备受争议的“丧亲排除”条款，正是因为悲伤和抑郁有相似的表层症状，但属于不同类型的状态，预后和治疗也不同；放射性衰变 ↔ 过时词汇逐渐废弃，在高级抽象层面上通过不同语域的变化动词（collapsed, decayed, declined, disintegrated）桥接——命名了一种泊松过程状态丢失模式，物理学家和历史语言学家都有实例，但没有单独的单词来描述。最后这种情况是平面检索在结构上无法产生的——没有嵌入轴对应“在不同领域与状态减少共现的动词”。技术栈（全部本地、全部免费）GitHub：https://github.com/oleksiy-perepelytsya/bary-vector MongoDB Community Edition + mongot 用于存储/向量搜索 nomic-embed-text，768 维 Python 3.11+ 完整构建：约 666 万文档，单工作站（8-16GB VRAM）耗时 8-14 小时尝试一下 MCP 服务器可按要求公开（SSE 传输）——用于搜索实时图谱的只读工具：find_word、semantic_search、edge_info、leaf_nodes、traverse_up、sample_metabary。如果你有支持 MCP 的客户端，你可以指向该图谱，几分钟内运行自己的探测查询。我真正想要的反饋是：跨领域桥接在非我本人的人探索时是否站得住脚——尝试在你熟悉的领域对上运行探测查询，告诉我桥接是真的，还是我自己在模式匹配中看到了不存在的结构。有些桥接初看可能不明显，但实际上是最令人感兴趣的，值得探究其背后的原因，因此将其视为调查点。这是否值得与 GraphRAG/RAPTOR 风格的层级检索进行直接对比（我尚未进行该基准测试，并且我知道这是本版首先会问的）。是否有人尝试过结构类似的方法，但因某些我尚未遇到的问题而大规模失败。预印本、架构规范以及原始的 SimLex/WordSim CSV 文件均在此处：https://zenodo.org/records/20186500 如果有兴趣，我乐意按要求提供 MCP 端点。

查看原文

BaryGraph - 每个关系都是独立嵌入文档的知识图谱（而非边）[R]

相似文章

GraphARC：基于图结构的抽象推理综合基准

colbymchenry/codegraph

CORE：用于知识图谱补全的循环正交体关系嵌入

使用知识图谱嵌入的自动化大数据质量评估

知识图谱中图到图语义相似性的测量：知识图谱嵌入的实证评估

提交意见反馈