Grokers:类型化知识图谱上的自底向上归纳理解与写时智能
摘要
本文介绍了Grokers,一种对类型化知识图谱进行自底向上归纳理解的架构,它将智能推向写入时,消除了查询时的LM调用,并证明了关于字节同一性、累积单调性和双遍历顺序的三个形式化定理。
arXiv:2606.00050v1 Announce Type: new
摘要:我们提出了Grokers,一种通过自底向上归纳遍历依赖子图来构建对类型化知识图谱的持久、结构化理解的架构。与检索增强生成(RAG)不同,RAG每次查询都要付出全部理解成本,而Grokers将智能推向写入时:自主的Groker智能体分析类型化流图中的节点,通过受控的语言模型(LM)调用提取结构化属性,并通过依赖关系自底向上归纳组合这种理解,写入丰富的类型化属性,这些属性为所有未来查询服务,且无需额外的LM成本。我们证明了三个形式化性质:(1) 字节同一性定理,它确立了从事务性维护的反规范化索引中组装出的上下文块,在语义变化之间的LM轮次中字节完全相同,从而实现接近100%的KV缓存命中率;(2) 累积单调性定理,它确立了在受控的智慧库增长协议下,无需LM调用即可解决的交互比例随着已完成交互数量的增加而单调非减;(3) 双遍历顺序定理,它确立了自顶向下生成和自底向上理解是依赖DAG上各自任务的唯一正确遍历顺序,并且它们的组合闭合为一个完整的生成-理解循环。我们还提出了一种基于嵌入的语义搜索的确定性替代方案,采用同义词缓存协议,对于有限词汇域,其LM回退率收敛到零。在开源Qbix / Safebox / Safebots栈中提供了参考实现。
查看缓存全文
缓存时间: 2026/06/02 15:44
# 针对类型化知识图谱的自底向上归纳理解与写入时智能
来源:https://arxiv.org/html/2606.00050
###### 摘要
我们提出**Grokers**架构,通过依赖子图的**自底向上归纳遍历**,构建对类型化知识图谱的持久化、结构化理解。与检索增强生成(RAG)不同——后者每次查询都要支付完整的理解成本——**Grokers**将智能推向*写入时*:自主的Groker代理分析类型化流图中的节点,通过受控的语言模型(LM)调用提取结构化属性,并通过依赖关系将这些理解向上归纳组合——写入富化的类型化属性,这些属性对所有未来查询可用,且无需额外LM成本。我们证明了三个形式化属性:(1) **字节一致性定理**:从事务性维护的反规范化索引组装出的上下文块,在语义变化之间的LM轮次中保持字节一致性,使得KV缓存命中率接近100%;(2) **累积单调性定理**:在受控的智慧库增长协议下,无需LM调用即可解决交互的比例,随着已完成交互数量的增加,是非递减的;(3) **双遍历顺序定理**:在依赖DAG上,自顶向下生成和自底向上理解分别是各自任务的唯一正确遍历顺序,且它们的组合构成一个完整的生成-理解循环。我们还提出了一种确定性替代方法,用于基于嵌入的语义搜索,并附带同义词缓存协议,对于有限词汇领域,其LM回退率收敛到零。在开源的Qbix/Safebox/Safebots栈中提供了参考实现,该栈构建于Magarshak Machine SPACER基础之上[13 (https://arxiv.org/html/2606.00050#bib.bib1)]。
## I. 引言
当前主导的范式是将语言模型(LM)响应基于结构化知识进行**查询时检索**:对查询进行嵌入,通过向量相似度找到最近的文档块,并将其注入到提示上下文中[10 (https://arxiv.org/html/2606.00050#bib.bib3)]。这种方法存在结构性缺陷:它每次查询都支付完整的理解成本,无论该查询是全新的,还是与成千上万个先前查询在结构上等价。对于具有重复交互模式的知识领域——企业软件、文档管理、结构化任务执行——这种架构是浪费的。
我们提出**Grokers**架构,它反转了这一设计选择。理解工作在**写入时**一次性完成,由自主代理对类型化知识基础(substrate)的依赖图进行自底向上遍历——从叶节点向根节点——通过受控的LM调用提取并存储结构化的类型化属性。到查询时,相关结构已作为类型化属性存在于图节点上。核心基础是**类型化流图**:一个带有结构化字段、类型化属性和加权类型化边的有向图,实现了Magarshak Machine SPACER框架中的流(SS)和关系(RR)组件[13 (https://arxiv.org/html/2606.00050#bib.bib1)]。一个事务性维护的反规范化表(Streams\_Category)为每个节点存储了完整的预排序关系邻域,并在每次关系修改时原子更新,提供约≈1ms的完整上下文。
### 贡献
1. 1. Grokers写入时理解架构(§V (https://arxiv.org/html/2606.00050#S5))。
2. 2. 带有KV缓存成本分析的**字节一致性定理**(§IV (https://arxiv.org/html/2606.00050#S4))。
3. 3. 带有**累积单调性定理**的智慧库(§VI (https://arxiv.org/html/2606.00050#S6))。
4. 4. 带有增量扩展推论的**双遍历顺序定理**(§VII (https://arxiv.org/html/2606.00050#S7))。
5. 5. 一个带有**同义词缓存收敛**的确定性语义搜索系统(§IX (https://arxiv.org/html/2606.00050#S9))。
### 定位
各个独立组件——知识图谱[6 (https://arxiv.org/html/2606.00050#bib.bib4)]、基于LM的富化[11 (https://arxiv.org/html/2606.00050#bib.bib5)]、KV缓存[1 (https://arxiv.org/html/2606.00050#bib.bib10)]、程序库[4 (https://arxiv.org/html/2606.00050#bib.bib16)]——都已分别建立。我们的贡献在于对其组合的形式化分析以及上述三个证明属性,这些在先前工作中均未出现。
## II. 相关工作
**检索增强生成。** Lewis等人[10 (https://arxiv.org/html/2606.00050#bib.bib3)]将RAG确立为基于LM响应的标准方法。GraphRAG[6 (https://arxiv.org/html/2606.00050#bib.bib4)]在知识图谱上增加了社区摘要,但保留嵌入相似度作为检索机制;无论是GraphRAG还是任何RAG变体,都未能实现组装上下文的字节一致性或单调的LM调用消除。
**代码理解代理。** 自底向上理解在软件工程领域已有确立[2 (https://arxiv.org/html/2606.00050#bib.bib13)]。最近的LM工具(Copilot[8 (https://arxiv.org/html/2606.00050#bib.bib6)]、Devin[5 (https://arxiv.org/html/2606.00050#bib.bib7)]、RepoUnderstander[11 (https://arxiv.org/html/2606.00050#bib.bib5)])进行被动操作,没有持久化的富化结构或形式化的遍历顺序保证。
**记忆系统。** MemGPT[15 (https://arxiv.org/html/2606.00050#bib.bib8)]和Mem0[14 (https://arxiv.org/html/2606.00050#bib.bib9)]在查询时通过嵌入相似度检索事实。**Grokers**不同:富化在写入时完成,检索是类型化图的读取操作,并且累积性质已被证明。
**KV缓存优化。** Anthropic提示缓存[1 (https://arxiv.org/html/2606.00050#bib.bib10)]、SGLang[19 (https://arxiv.org/html/2606.00050#bib.bib11)]和LMCache[9 (https://arxiv.org/html/2606.00050#bib.bib12)]缓存调用者提供的任何前缀。据我们所知,**Grokers**是第一个从原理上*架构*上下文组装,使得稳定前缀在字节级别上保持一致。
**Magarshak Machine。** Magarshak[13 (https://arxiv.org/html/2606.00050#bib.bib1)]引入了SPACER基础:仅追加流、策略治理、五阶段动作执行(Compute→Require→Execute\\textsc{Compute}\\to\\textsc{Require}\\to\\textsc{Execute}),以及双向关系索引。**Grokers**是该基础之上的应用层;其形式化属性部分源于SPACER基础保证(最小缓存失效、尴尬并行、ε\\varepsilon-确定性视图能力)。
**层次化生成。** 层次化生成[7 (https://arxiv.org/html/2606.00050#bib.bib17),17 (https://arxiv.org/html/2606.00050#bib.bib18)]和规划-生成[16 (https://arxiv.org/html/2606.00050#bib.bib19)]并未形式化遍历顺序或将其与KV缓存稳定性联系起来。**双遍历顺序定理**(§VII (https://arxiv.org/html/2606.00050#S7))提供了这种联系。
## III. 类型化流图
###### 定义1(类型化流图)。一个*类型化流图* \(G=(V,E,\tau,\alpha,w)\) 由以下部分组成:节点集合 \(V\),带有类型函数 \(\tau: V \to \mathcal{T}\);有向类型化边集合 \(E \subseteq V \times \mathcal{R} \times V\);类型化属性函数 \(\alpha: V \to (K \to A)\);以及权重函数 \(w: E \to \mathbb{R}_{\geq 0}\),由投票聚合驱动 \(w(v,r,u) = \sum_i \mathrm{vote}_i(v,r,u)\),在投票事件的同一数据库事务中更新(实现[13 (https://arxiv.org/html/2606.00050#bib.bib1)]的RR/关系组件)。
###### 定义2(依赖子图)。*依赖子图* \(D(v)\) 是由 \(v\) 通过 \(\mathsf{depends\_on}\) 边可到达的节点导出的子图。节点 \(u \in D(v)\) 是*叶节点*,如果它在 \(D(v)\) 内没有出方向的 \(\mathsf{depends\_on}\) 边。我们假设对所有 \(v \in V\) 来说 \(D(v)\) 是一个DAG。
###### 定义3(富化/过期节点)。节点 \(v\) 是*富化的*,如果 \(\alpha(v)\) 包含核心模式字段 \(\{\mathsf{digest},\allowbreak\mathsf{keywords},\allowbreak\mathsf{qualityScore}\}\) 的非空值。(实现可能包含其他字段,例如用于缓存失效的 \(\mathsf{grokVersion}\);这些不在形式化模型内。)节点 \(v\) 是*过期的*,如果 \(\alpha(v)[\mathsf{stale}] = \mathtt{true}\)。
## IV. 反规范化索引与字节一致性定理
### IV-A. 索引结构
Streams\_Category 表为每个 \(v \in V\) 维护:
\[
N(v) = \bigl\{ r \mapsto \{ w_j \mapsto [p_j, s_j, t_j, i_j] \}_j \mid (v, r, u_j) \in E \bigr\}
\]
其中 \(p_j, s_j\) 是第 \(j\) 个邻居在关系类型 \(r\) 下权重为 \(w_j\) 时的 publisherId/streamName,\(t_j, i_j\) 是其反规范化的标题和图标。该表在每次 Streams::relate() / Streams::unrelate() 调用的同一数据库事务中更新——无后台作业,无最终一致性。
###### 定义4(上下文块)。*上下文块* \(C(v)\) 是确定性函数 \(\mathsf{buildCachedContext}(v)\) 的输出:读取 \(\alpha(v)\) 和 \(N(v)\);将它们渲染为结构化文本,关系类型按信号强度排序(独特类型优先,非独特类型按最大权重降序)。
### IV-B. 字节一致性定理
###### 定理1(字节一致性)。设 \(t_1 < t_2\) 为两个查询时间,对于所有节点 \(v \in V\),如果 \(v\) 在 \([t_1, t_2)\) 期间未发生关联的语义变化(即,没有导致其邻域 \(N(v)\) 或属性 \(\alpha(v)\) 变化的操作),那么 \(\mathsf{buildCachedContext}(v)\) 在 \(t_1\) 和 \(t_2\) 的输出在字节级别上完全相同。
证明。由于 \(\mathsf{buildCachedContext}\) 是输入 \(\alpha(v)\) 和 \(N(v)\) 的确定性函数,且这些输入在 \([t_1, t_2)\) 期间未被修改,因此输出在字节级别上相同。∎
#### 对KV缓存成本的影响
考虑一个包含 \(n\) 个上下文块的稳定集合,每个块平均长度为 \(L\) 个token,缓存成本为 \(C_{\text{cache}}\)(包含内存和失效开销)。在语义变化之间,缓存命中率为1,因此每次查询的KV缓存成本为 \(\frac{C_{\text{cache}}}{Q}\),其中 \(Q\) 是缓存重用次数。对比之下,非稳定上下文在每次变化时需要 \(O(nL)\) 的重新计算。
## V. Grokers理解架构
### V-A. 架构角色
- **Groker代理**:底层的、一次性的理解工作者。每个Groker被分配一个或多个节点;它读取依赖数据,通过受控的LM调用提取结构化属性,将结果写入节点的 \(\alpha\) 字段。Groker是独立的:写入从未读取其他Groker的临时状态。
- **智慧库**:存储先前通过 Groker 提取成功解决的交互模式。定义为 \(W = \{ (p, r) \}\),其中 \(p\) 是谓词(约束),\(r\) 是结果(结构化属性值)。在 §VI 中形式化。
- **Orchestrator**:一个轻量级执行者,调度 Groker 遍历并监督资源限制(LM调用预算、超时)。
### V-B. 遍历编排
给定一个DAG \(D(v)\),Orchestrator 按自底向上的拓扑顺序调度 Groker:对于每个节点 \(u\),在其所有依赖(即,来自叶节点的出边)都已被富化后,才处理它。这保证了处理 \(u\) 时,\(\alpha(\text{dep})\) 对每个依赖 \(dep\) 都是完整的。
### V-C. 受控LM调用
每个LM调用都受约束于一个模式规范 \(\sigma(T, C)\),该规范包含:
- **指令子句** \(\ell_1, ..., \ell_k\):自然语言指令,约束LM从源文本 \(T\) 和上下文 \(C\) 中提取内容。
- **输出模式**:结构化字段 \(\{\mathsf{key}_i: \text{type}_i\}\)。
- **验证规则**:断言提取的值满足类型约束和领域特定规则。
Orchestrator 确保每次调用都会产生一个有效填充的 \(\alpha\) 记录;失败则重试(最多 \(R\) 次)或回退到默认值。
## VI. 智慧库与累积单调性
###### 定义5(交互记录)。一个*交互记录*是 \((\text{goal}, \text{state})\) 对,其中 goal 是目标类型 \(g \in \mathcal{G}\),state 是当前查询上下文。交互被分类为:(a)**已解决**:无需LM即可通过智慧库解决;(b)**未解决**:需要一次或多次LM调用。
###### 定义6(覆盖分数)。给定一个智慧库 \(W\),其在状态集合 \(\mathcal{X}\) 上的*覆盖分数*为 \(E(W) = \frac{|\{x \in \mathcal{X} : \text{解决}(x, W) \}|}{|\mathcal{X}|}\),其中 \(\text{解决}(x, W)\) 表示存在一个匹配的 \((p, r) \in W\) 使得 \(p(x)\) 为真,且结果 \(r\) 足以生成回答。我们关注交互序列;设 \(W^{(t)}\) 是在第 \(t\) 次交互后的库,\(E^{(t)} = E(W^{(t)})\)。
###### 定理3(累积单调性)。在以下两种机制下,\(E^{(t)}\) 关于 \(t\) 是非递减的:
(1)*准确捕获*:任何导致新交互记录的交互都将其谓词-结果对添加到 \(W\) 中。
(2)*基于适应度的替换*:如果 \(|W|\) 达到最大值,则保留那些在观察分布上适应度最高的条目。
证明。设 \(p\) 和 \(p'\) 分别为旧条目和新条目的谓词。如果 \(f(p') > f(p)\),则 \(|\{x \in \mathcal{X}: p'(x) \neq \mathsf{LM}\}| \geq |\{x \in \mathcal{X}: p(x) \neq \mathsf{LM}\}|\),即经验适应度是完整分布上覆盖度的可靠代理。在此假设下,\(p'\) 至少覆盖了 \(p\) 处理良好的交互。因此,基于适应度的替换不会减少覆盖度,从而 \(E(W^{(t+1)}) \geq E(W^{(t)})\)。由于两种机制都是非递减的,且定理在所述假设下成立,结论得出。∎
###### 推论2(递减的边际LM成本)。\(C_{\mathsf{LM}}^{(t)} = (1 - E(W^{(t)})) \cdot c_{\mathsf{LM}}\) 关于 \(t\) 是非递增的。RAG、ReAct[18 (https://arxiv.org/html/2606.00050#bib.bib14)] 和 LangChain[3 (https://arxiv.org/html/2606.00050#bib.bib15)] 每次交互的边际LM成本均为常数——定理3 (https://arxiv.org/html/2606.00050#Thmtheorem3) 是这些机制中唯一打破此常数成本性质的机制。消除率 \(E(W^{(t)})\) 受限于目标类型 \(g\) 的*结构可预测性* \(P_g\)。对于面向任务的目标类型(能力构建、文档审查、支持解决),预期 \(P_g\) 较大——反映了大部分交互遵循可预测的结构模式——尽管其精确值取决于领域并需实证测量(见讨论,§XI (https://arxiv.org/html/2606.00050#S11))。剩余部分需要真正的综合和无限期的LM调用。
## VII. 双遍历顺序
###### 定义7(连贯生成任务)。一个 DAG \(H\) 上的*连贯生成任务* 为每个节点 \(v\) 分配工件内容,使用其依赖的内容作为共享上下文,如果所有共享依赖的消费者都使用相同版本的该依赖,则称该任务是*连贯的*。
###### 定理4(双遍历顺序)。设 \(H\) 是一个依赖 DAG。
1. 1. Groker正确理解的有效顺序正是 \(H\) 的拓扑排序,且叶节点优先(自底向上);任何不属于此类的顺序都可能导致某些节点的富化不正确。
2. 2. 在 \(H\) 上生成连贯工件的有效顺序正是 \(H\) 的拓扑排序,且根节点优先(自顶向下);任何不属于此类的顺序都可能产生某些节点的工件不连贯。
3. 3. 这两类顺序在任何 DAG 上互为逆序:翻转任意根节点优先顺序的成员得到叶节点优先顺序的成员,反之亦然。
由自底向上理解生成工件所产生的富化属性 \(\{\alpha(v)\}_{v \in V}\),通过 \(\mathsf{buildCachedContext}\) 构成一个字节一致的(定理1 (https://arxiv.org/html/2606.00050#Thmtheorem1))KV缓存上下文,用于后续在同一模式上生成工件。
证明。
* (a) 设 \((v, \mathsf{depends\_on}, u) \in E\)。Groker 理解 \(v\) 需要富化的 \(\alpha(u)\)。如果 \(v\) 在 \(u\) 之前处理,则 \(\alpha(u)\) 未富化,正确性失败。因此 \(u\) 必须在 \(v\) 之前——即叶节点优先的拓扑排序。充分性由定理2 (https://arxiv.org/html/2606.00050#Thmtheorem2) 保证。
* (b) 生成 \(v\) 需要 \(u\) 的内容作为共享上下文(连贯生成任务的定义)。如果 \(v\) 在 \(u\) 之前生成,则共享上下文不可用,连贯性失败。因此 \(u\) 必须在 \(v\) 之前——即根节点优先的拓扑排序。
* (c) 根节点优先和叶节点优先的拓扑排序在任何 DAG 上互为逆序。生成阶段(顺序 \(\sigma\))为所有节点生成内容,每个工件追加到图中([13 (https://arxiv.org/html/2606.00050#bib.bib1)] 的仅追加安全性保证不丢失)。理解阶段(顺序 \(\sigma^{-1}\))富化所有节点。产生的 \(\{\alpha(v)\}\) 由确定性函数 \(\mathsf{buildCachedContext}\) 组装成上下文块,根据定理1 (https://arxiv.org/html/2606.00050#Thmtheorem1),该块在工件变化之前的轮次间保持字节一致性。∎
###### 推论3(增量共享依赖扩展)。在自顶向下生成过程中,当叶节点遇到一个新的共享依赖 \(d\) 不在当前共享依赖流中时:
(i) 添加 \(d\) 不会使不依赖 \(d\) 的叶节点失效;
(ii) 已经生成的依赖 \(d\) 的叶节点变为过期(命题1 (https://arxiv.org/html/2606.00050#Thmproposition1)),需要重新生成;
(iii) 所有后续叶节点生成时都有 \(d\) 可作为共享上下文。
此推论形式化了网站生成模式:在页面生成过程中发现的新 CSS 变量会被添加到设计系统流中,只需重新生成受影响的页面,并且对所有后续页面都可用。
### VII-A. 上下文稳定性层次结构
双遍历结构直接映射到 KV 缓存稳定性层次结构:
- **PERMANENT**:根级架构,在目标类型的生命周期内稳定
- **SESSION**:节/模块上下文,在语义变化之间字节一致
- **COLD**:多级摘要树,每约 \(10^2\)–\(10^3\) 次消息变化
- **DYNAMIC**:智慧程序选择的上下文,每轮变化
根级架构 → PERMANENT;节上下文 → SESSION;叶节点需求 → DYNAMIC。每一层级层次的共享上下文被计算一次,并在所有后代叶节点生成中重用。
## VIII. 观察模式与写入时提取
一个*观察模式*将流类型 \(T\) 映射到提取规范 \(\sigma(T, C)\):*指令子句* \([l_1, ..., l_k]\)(自然语言指令,约束 LM 提取输出,构成稳定部分相似文章
基于图柯尔莫哥洛夫复杂度的逻辑语法归纳:用于临床数据自愈完整性的神经符号框架
提出了Logic-GNN,一种神经符号框架,通过时序图神经网络和图柯尔莫哥洛夫复杂度归纳出临床记录的符号语法,从而能够将数据录入错误检测为语法违规并进行纠正。该系统在一个大型医疗数据集上取得了0.94的F1分数,性能比现有最佳方法提升12%。
LogosKG:面向硬件优化、可扩展且可解释的知识图谱检索
LogosKG 提出一种贴合硬件的框架,可在含十亿条边的知识图谱上实现可扩展、可解释的多跳检索;通过度感知分区与按需缓存提升效率,同时不损失保真度。
AdaTKG:用于时序知识图谱推理的自适应记忆
本文提出了 AdaTKG,一种用于时序知识图谱推理的方法,它利用自适应记忆随着新交互的发生动态优化实体表示,从而在性能上优于静态基线。
宁迟勿早:基于本体后提取校正的神经符号知识图谱构建
本文提出了一种神经符号框架,通过将一致性校正推迟到后提取阶段,从文本中构建基于本体的知识图谱,从而减少令牌使用,同时提高知识图谱的一致性并保持问答性能。
增强元认知AI:基于图论的大语言模型富集的知识图谱填充
MetaKGEnrich是一个全自动流水线,使用图指标检测大语言模型应用中的知识缺口,检索网络证据,并在三个基准数据集上将答案质量提升80%-87%。