HyphaeDB:面向智能体优先的活性知识拓扑
摘要
HyphaeDB 是一种新颖的智能体原生内存基础设施,它将 HNSW 图拓扑重新用作基于八卦传播的多智能体知识传播和涌现协调的通信结构,与传统的被动向量数据库形成对比。
arXiv:2606.28781v1 公告类型:新
摘要:现有的每个向量数据库和智能体记忆框架都将内存视为被动存储,智能体需要显式查询。没有任何系统通过记忆层本身在智能体之间传播知识。我们引入 HyphaeDB,这是一种智能体原生记忆基础设施,它将分层可导航小世界(HNSW)图拓扑(每个现代向量数据库核心的数据结构)重新解释为多智能体 AI 系统的通信结构,而不是作为搜索优化。在 HyphaeDB 中,智能体是向量空间中的节点,具有持久位置,知识通过基于能量衰减的八卦协议沿着图的邻居结构传播,涌现行为——矛盾检测、模式结晶和共识形成——源于拓扑、传播动态和局部交互规则的组合。我们提出了基于三个原语(知识节点、拓扑边和记忆差异)的架构,一个具有通过涌现共识提升的多层抽象层次结构,以及将系统奠基于小世界网络理论、流行病广播协议和群体智能的理论分析。我们在带有 pgvector 的 PostgreSQL 上提供了一个参考实现,并描述了一种具体的部署——群体驱动开发,这是一种多智能体软件工程方法论。据我们所知,HyphaeDB 是第一个将可导航小世界拓扑与基于八卦的知识传播相结合以实现多智能体协调的系统。
查看缓存全文
缓存时间: 2026/06/30 05:32
# 基于 HNSW 图拓扑的智能体优先记忆活性知识拓扑:作为多智能体知识传播与涌现协调的八卦式通信织物
来源:https://arxiv.org/html/2606.28781 (2026年3月)
###### 摘要
现有的向量数据库和智能体记忆框架都将记忆视为被动存储,需要智能体显式查询。没有任何系统能够通过记忆层本身在智能体之间传播知识。我们提出 HyphaeDB,一种智能体原生的记忆基础设施,它重新诠释了每一款现代向量数据库核心中的数据结构——分层可导航小世界 (HNSW) 图拓扑——不再是搜索优化,而是多智能体 AI 系统的*通信织物*。在 HyphaeDB 中,智能体是向量空间中拥有持久位置的节点,知识通过图的邻居结构以八卦协议传播并带有基于能量的衰减,而涌现行为——矛盾检测、模式结晶和共识形成——源于拓扑、传播动力学和局部交互规则的组合。我们提出了基于三个原语(知识节点、拓扑边和记忆差异)的架构,一个带有通过涌现共识进行提升的多层抽象层次结构,以及将系统建立在无标度网络理论、流行病广播协议和群体智能基础上的理论分析。我们提供了基于 PostgreSQL 和 pgvector 的参考实现,并描述了在多智能体软件工程方法论——群驱动开发中的具体部署。据我们所知,HyphaeDB 是首个将可导航小世界拓扑与基于八卦的知识传播相结合,以支持多智能体协调的系统。
关键词:多智能体系统,智能体记忆,HNSW,八卦协议,知识传播,群体智能,向量数据库,涌现行为
## 1 引言
AI 智能体系统的快速普及——预计从 2025 年的 75 亿美元增长到 2030 年的 500 亿美元以上 (MarketsandMarkets,2025 (https://arxiv.org/html/2606.28781#bib.bib21); Grand View Research,2025 (https://arxiv.org/html/2606.28781#bib.bib9))——催生了对基础设施的迫切需求,不仅要支持单个智能体的智能,更要支持*集体*智能。随着各组织平均每家企业部署 12 个智能体 (Salesforce,2026 (https://arxiv.org/html/2606.28781#bib.bib27)),且 Gartner 预测到 2026 年底 40% 的企业应用将嵌入特定任务的 AI 智能体 (Gartner,2025 (https://arxiv.org/html/2606.28781#bib.bib8)),多智能体协调方面的基础设施缺口已成为关键瓶颈。
这一缺口的核心在于记忆。每一款现有的智能体记忆框架——Mem0 (Yadav 等,2025 (https://arxiv.org/html/2606.28781#bib.bib30))、Letta (Packer 等,2023 (https://arxiv.org/html/2606.28781#bib.bib25))、LangMem (LangChain,2025 (https://arxiv.org/html/2606.28781#bib.bib15)) 等——都遵循相同的基本模式:从智能体交互中提取知识,存入向量数据库或图中,当智能体查询时再检索。记忆是被动的。在写入和读取之间,存储层是惰性的。它没有在智能体之间传播知识的机制,不知道哪些智能体需要哪些信息,也没有涌现行为的能力。
本文提出 HyphaeDB,一种截然不同的智能体记忆原语。HyphaeDB 将 HNSW (分层可导航小世界) 图 (Malkov and Yashunin,2020 (https://arxiv.org/html/2606.28781#bib.bib18))——所有主流向量数据库用于近似最近邻搜索的索引结构——重新诠释为一种*通信织物*,其中:
1. 智能体是向量空间中的节点,拥有持久位置,位置会随其工作漂移。
2. 知识通过图的邻居结构以八卦协议传播,并有一个能量模型根据相关性和重要性进行衰减。
3. 涌现行为源于拓扑:矛盾检测、模式结晶和共识形成无需显式编程即可发生。
结果是记忆不再静静地躺在存储中等待被找到。它流经一个活的拓扑,找到需要它的智能体,在矛盾变成错误之前浮出水面,并结晶出任何单个智能体都无法孤立观察到的模式。
贡献。本文做出四项贡献:
1. 我们识别了 HNSW 图拓扑作为多智能体知识传播通信织物的重新诠释——据我们所知,这是首次提出使用可导航小世界图实现此目的。
2. 我们设计了一个完整的、适用于语义知识传播的八卦协议,包括基于能量的衰减模型、通过涌现共识实现提升的多层抽象以及常驻信标订阅。
3. 我们提供了将系统属性建立在无标度网络理论、流行病广播模型和群体智能基础上的理论分析。
4. 我们给出了基于 PostgreSQL 和 pgvector 的参考实现,并描述了在多智能体软件开发工作流中的部署。
## 2 相关工作
### 2.1 智能体记忆系统
自 2023 年以来,智能体记忆领域发展迅速。MemGPT/Letta (Packer 等,2023 (https://arxiv.org/html/2606.28781#bib.bib25)) 开创了受操作系统启发的记忆层次结构——核心记忆(上下文内,类似 RAM)、回忆记忆(对话历史,类似磁盘)和归档记忆(外部数据库)。其 2025 年的“休眠计算”创新将记忆管理与活跃对话分离,实现了异步记忆优化。Mem0 (Yadav 等,2025 (https://arxiv.org/html/2606.28781#bib.bib30)) 实现了一个两阶段记忆管线(提取然后更新),由 LLM 将候选记忆与向量存储进行协调,在 LOCOMO 基准测试上比 OpenAI 的记忆准确率高 26%。其图变体 (Mem0g) 使用有向标签图进行实体-关系存储。LangMem (LangChain,2025 (https://arxiv.org/html/2606.28781#bib.bib15)) 提供与 LangGraph 存储层集成的记忆工具,支持语义型、情景型和程序型记忆。
所有这些系统都有一个根本局限性:记忆是智能体*从中读取*和*向其写入*的东西。没有系统能通过记忆层本身在智能体之间传播知识。2025 年关于基于 LLM 的多智能体系统记忆的调查 (Zhang 等,2025 (https://arxiv.org/html/2606.28781#bib.bib31)) 确认“MAS 记忆必须支持跨多个上下文层的协调”,但未识别出能实现这一点的生产系统。A-Mem 系统 (Xu 等,2025 (https://arxiv.org/html/2606.28781#bib.bib29)) 引入了受 Zettelkasten 启发的动态记忆组织,其中记忆可以自我链接,代表了与主动记忆最为接近的学术工作,但仅作用于单个智能体。
### 2.2 HNSW 与可导航小世界图
HNSW 算法 (Malkov and Yashunin,2020 (https://arxiv.org/html/2606.28781#bib.bib18)) 构建了一个多层邻近图,其中第 0 层包含所有数据点,具有密集的局部连接,而较高层包含逐渐稀疏的子集,具有更远距离的链接。层级分配遵循指数分布:l(x) = ⌊−ln(uniform(0,1)) · mL⌋。该结构继承了 Watts 和 Strogatz (1998 (https://arxiv.org/html/2606.28781#bib.bib28)) 识别的小世界性质——高局部聚类和短平均路径长度(缩放为 O(log N))——同时满足 Kleinberg (2000 (https://arxiv.org/html/2606.28781#bib.bib14)) 证明的可导航条件:当长距离连接服从 P(u→v) ∝ d(u,v)^(-d) 时,贪心路由能达到 O(log² N) 的传递时间。Malkov 和 Ponomarenko (2016 (https://arxiv.org/html/2606.28781#bib.bib19)) 证明了 HNSW 通过增量构建能涌现地实现这种分布。2024 年的枢纽高速公路假说 (Hub Highway Hypothesis) (Munyampirwa 等,2024 (https://arxiv.org/html/2606.28781#bib.bib23)) 揭示,HNSW 图会自然形成连接良好的枢纽节点,作为路由捷径,结构上类似于通信网络中的骨干路由器。这些枢纽无需显式设计,在构建过程中涌现。
没有已发表的研究将 HNSW 拓扑用于通信路由或智能体协调。然而,在邻近领域存在先例:Symphony (Manku 等,2003 (https://arxiv.org/html/2606.28781#bib.bib20)) 在 Kleinberg 的可导航小世界模型上构建了分布式哈希表 (DHT);Freenet 的暗网 (Clarke 等,2005 (https://arxiv.org/html/2606.28781#bib.bib4)) 使用小世界路由实现匿名通信;跳图 (skip graphs) (Aspnes and Shah,2003 (https://arxiv.org/html/2606.28781#bib.bib1)) 将多层结构推广到分布式设置。
### 2.3 八卦协议
Demers 等人 (1987 (https://arxiv.org/html/2606.28781#bib.bib6)) 的开创性工作确立了两种互补的八卦机制:*反熵*(完全状态同步)和*谣言传播*(概率性扩散)。支配八卦的 SI 流行病模型遵循逻辑增长:从一个知情节点出发,在 N 个节点中,经过 k 轮且扇出为 f 时,大约到达 N · (1 − e^(−fk/N)) 个节点,以高概率在 O(log N) 轮内实现完全传播。SWIM (Das 等,2002 (https://arxiv.org/html/2606.28781#bib.bib5)) 通过将更新附加在探测/确认消息上实现了 O(N) 的消息复杂度。HyParView (Leitão 等,2007a (https://arxiv.org/html/2606.28781#bib.bib16)) 维护双重部分视图,在 80-95% 节点故障下提供容错性。Plumtree (Leitão 等,2007b (https://arxiv.org/html/2606.28781#bib.bib17)) 构建自组织的广播树,每次广播实现近乎最优的 N-1 条有效载荷消息。T-Man 协议 (Jelasity and Babaoglu,2009 (https://arxiv.org/html/2606.28781#bib.bib11)) 使用八卦交换以对数收敛速度构建任意覆盖拓扑。空间八卦 (Kempe 等,2001 (https://arxiv.org/html/2606.28781#bib.bib13)) 分析了节点选择概率与距离成反比的八卦,在可导航的最佳点上实现了 O(log^(1+ε) N) 的传递——这直接适用于在 HNSW 的距离感知拓扑上运行八卦。2025 年的一篇展望论文 (Bénézit 等,2025 (https://arxiv.org/html/2606.28781#bib.bib2)) 明确提出了将八卦作为智能体多智能体系统的一等原语,但未指定拓扑。HyphaeDB 提供了这个拓扑。
### 2.4 群体智能与涌现
Reynolds 的 Boids 模型 (Reynolds,1987 (https://arxiv.org/html/2606.28781#bib.bib26)) 证明三个局部规则无需中央控制即可产生一致的群体飞行动作。蚁群优化 (Dorigo and Stützle,2004 (https://arxiv.org/html/2606.28781#bib.bib7)) 显示局部信息素动力学能产生全局最优路径。Grassé 的 Stigmergy (Grassé,1959 (https://arxiv.org/html/2606.28781#bib.bib10)) 确立了无需规划、通信或相互意识便可产生复杂协调活动——这正是 HyphaeDB 用数字方式实现的协调类型。Olfati-Saber 等人 (2007 (https://arxiv.org/html/2606.28781#bib.bib24)) 展示了网络拓扑通过图拉普拉斯算子的特征值直接影响共识动力学,小世界性质能实现快速收敛。Moore 和 Newman (2000 (https://arxiv.org/html/2606.28781#bib.bib22)) 证明了小世界网络上的流行病传播被大幅加速:高聚类确保局部传播,而短路径实现快速的全系统传播。Buehler (2025 (https://arxiv.org/html/2606.28781#bib.bib3)) 表明递归图扩张产生无标度网络,具有涌现的概念枢纽和有界直径增长,表现出“类似人类的分层知识形成”。
## 3 架构
HyphaeDB 构建在三个原语之上。所有系统功能——知识存储、智能体通信、订阅管理、共识形成——都归结为这些构造的组合。
### 3.1 原语 1:知识节点
拓扑中的每个实体都是一个*知识节点*,在向量空间中拥有位置:
node = (id, τ, e, l, φ) (1)
其中 τ ∈ {cell, agent, scene, beacon} 是节点类型,e ∈ R^d 是嵌入向量(默认 d=1536),l ∈ {0,1,2} 是层级分配,φ 是类型特定的有效载荷。
Cell 节点表示原子知识单元:决策、事实、模式、风险、教训、约束等类型化信息。每个 cell 有一个显著度得分 s ∈ [0,1] 指示重要性,以及一个置信度得分 c ∈ [0,1] 指示确定性。
Agent 节点表示 AI 智能体,在空间中拥有持久位置。智能体的位置计算为其近期访问或创建的 cell 的加权质心:
e_agent = (∑ w_i · e_i) / ||∑ w_i · e_i|| 其中 w_i = s_i · e^(−λ · Δt_i) (2)
s_i 是 cell i 的显著度,Δt_i 是自上次访问以来的时间,λ = 0.1 是衰减率。随着智能体的工作主题迁移,其位置在向量空间中漂移,自然地进入和离开不同的拓扑邻域。
Scene 节点是合并产生的主题质心——总结一个连贯知识区域(例如“认证——OAuth2”)的聚类中心。它们位于第 1 层或更高层。
Beacon 节点是放置在固定位置的常驻订阅。安全审查智能体可以在“安全风险”位置放置一个信标;任何经过该区域的八卦都会激活信标,并将内容投递到智能体的收件箱,无论智能体当前位于何处。
### 3.2 原语 2:拓扑边
边定义了通信通道。它们隐含地存在于 HNSW 图中(由 pgvector 管理以支持搜索),并显式地存在于拓扑边表中:
edge = (src, tgt, τ_e, ω, b) (3)
其中 τ_e ∈ {semantic, causal, subscription, promoted} 是边类型,ω ∈ (0,1] 是连接权重,b 是带宽(八卦容量)。穿越一条边的跳代价是 ω^(−1):强连接穿越成本低,弱连接成本高。
### 3.3 原语 3:记忆差异
八卦的基本单位是*记忆差异*——一种通过拓扑传播的变化通知:
diff = (origin, τ_d, e_d, E, s, h, h_max, P, TTL) (4)
其中 τ_d ∈ {created, updated, superseded, contradiction, pattern, promoted},e_d 是差异的嵌入,E 是剩余能量,s 是显著度,h 是当前跳数,h_max 是最大跳数,P相似文章
先组织后检索:高效智能体的分层记忆导航
本文提出HORMA,一种分层组织与检索记忆智能体,它将智能体经历组织成类文件系统结构以实现高效检索,在减少token用量的同时提升长周期任务的性能。
H-Mem:一种通过混合结构实现智能体记忆演化与检索的新型记忆机制
H-Mem是一种面向基于LLM的智能体的新型记忆机制,采用时间-语义树与知识图谱相结合的混合结构,以建模记忆演化并提升检索性能,在问答基准上实现了最先进水平。
HydraPlus — 真正了解用户的AI智能体记忆与上下文层。开源
HydraPlus 是一个开源的AI智能体记忆与上下文层,它使用实时知识图谱,结合图遍历、语义搜索和BM25,为多个智能体提供持久、安全且自管理的上下文。
rohitg00/agentmemory
agentmemory 是一个开源的持久化记忆层,专为 AI 编程智能体(Claude Code、Cursor、Gemini CLI、Codex CLI 等)设计。它通过知识图谱、置信度评分和混合搜索技术,借助 MCP、Hooks 或 REST API,为智能体提供跨会话的长期记忆能力。该项目基于 iii 引擎构建,无需外部数据库,提供 51 个 MCP 工具。
@witcheer: 一位Hermes社区构建者发布了Synapse,为你的agent添加了一个非常酷的功能。一句话概括:会主动遗忘的记忆……
Synapse是一个开源、自托管的合成海马体,专为AI agent设计,使用时间知识图谱(Graphiti + FalkorDB),结合显著性评分和艾宾浩斯遗忘曲线来管理记忆衰减与巩固,并作为Hermes agent的内存提供者集成。