@tech_with_ram:你的 AI 技术栈有个数据库问题 你需要一个向量数据库来存嵌入。一个图数据库来处理关系。一个应用 …
摘要
HelixDB 是一款新的开源数据库,采用 Rust 构建,将向量、图和其他数据模型结合到单一引擎中,由 Y Combinator 支持。它旨在取代 AI 技术栈中独立的向量、图和应用数据库,提供原生向量搜索、图遍历和 MCP 支持。
你的 AI 技术栈有个数据库问题
你需要一个向量数据库来存嵌入。一个图数据库来处理关系。一个应用数据库来存结构化数据。一个应用层把它们缝合在一起。
→ Pinecone Standard:每月 70 美元
→ Neo4j AuraDB Professional:每月 65 美元
→ Postgres RDS:每月 50 美元以上
→ 将所有东西连接起来的工程时间:无价
三个数据库。三个模式。三个故障点。
还有一个仍然会产生幻觉的 RAG 流水线,因为你的数据块彼此之间没有上下文。
然后伦敦的两个大学辍学生发布了一个数据库,取代了所有这三个。
它叫 HelixDB。
用 Rust 从头构建。
开源。
采用 AGPL-3.0 许可。
可自托管。
由 Y Combinator 支持。
不是三个数据库用应用代码强行拼凑在一起。
一个引擎,图和向量存在于同一个数据模型中。
你的嵌入知道它的邻居。
你的邻居知道它们的嵌入。
一切相连,一切可查,一个系统。
创始人是 George Curtis 和 Xavier Cochran。
他们在大学期间创建了 HelixDB,此前曾苦于图数据库的复杂性。
没有资历。没有过往退出案例。
在离开校园之前,他们就吸引了来自 X 的开发者和 United Healthcare 的工程师。
然后他们辍学,搬到了旧金山,并进入了 Y Combinator。
2 位创始人。6 个人。一个取代三个的数据库。
以下是它的功能:
→ 单一引擎中的图 + 向量:两个系统之间永远无需连接
→ HelixQL,一种强类型编译查询语言——比 Cypher 更安全,比 Gremlin 更快
→ 内置向量搜索、关键词搜索和图遍历:为任何 RAG 流水线提供动力
→ 一次函数调用自动嵌入:摄入前无需预处理流水线
→ 内置 MCP 支持:你的 AI 代理遍历图,无需生成查询
→ 支持 KV、文档和关系数据,与图和向量并存
→ 默认私有:开箱即用的认证查询访问
→ 提供 TypeScript、Python 和 Go 的 SDK:一次安装,一个客户端
→ 基于 S3 兼容对象存储的 Helix Enterprise —— 无状态节点,水平扩展
~4,000 星。采用 AGPL-3.0 许可。已执行数十亿次查询。Y Combinator W25。2026 年起普遍可用。被独立开发者和财富 500 强团队使用。
相似文章
@techwith_ram:一个1000万文档的语料库以float32格式占用31GB内存。大多数团队遇到这一瓶颈后会转向托管向量数据库。每月400美元……
turbovec 是一个开源的 Rust 向量索引,使用 Google Research 的 TurboQuant 算法,实现了16倍压缩,搜索速度比 FAISS 更快,并且集成了 LangChain、LlamaIndex 和 Haystack 等 RAG 框架。
Helix_AGI 个人项目
一位开发者分享了 Helix-AGI,这是一个持续运行的认知代理,使用基于物理的记忆检索系统,通过熵引力方程和欧拉-拉格朗日动力学,整合了时间近性、结构重要性和语义邻近性,无需单独调整权重。
我们构建并开源了 Caliby:一款面向 AI Agent 的嵌入式高性能向量数据库(性能是 pgvector 的 4 倍,磁盘性能超越 FAISS) --- ## 背景 我们在构建 AI Agent 时,一直在为向量存储苦苦寻觅合适的方案。 - **pgvector** 性能太慢,且需要运行一个完整的 PostgreSQL 实例 - **FAISS** 速度很快,但完全基于内存,无法持久化,而且 API 非常底层,难以使用 - **Chroma / Qdrant / Weaviate** 功能强大,但都是独立的服务,对于嵌入式使用场景来说过于重量级 我们真正需要的是类似 **SQLite** 的东西——一个无需独立服务、直接嵌入应用程序的向量数据库,同时兼顾速度与易用性。 于是,我们动手构建了它。 --- ## Caliby 是什么? **Caliby** 是一款嵌入式向量数据库,专为 AI Agent 和本地 AI 应用设计。 **核心特性:** - 🚀 **高性能** — 查询速度是 pgvector 的 4 倍,磁盘模式下超越 FAISS - 💾 **嵌入式** — 无需独立服务,像使用 SQLite 一样简单 - 🔍 **混合搜索** — 同时支持向量搜索与元数据过滤 - 📦 **持久化存储** — 数据落盘,重启后不丢失 - 🔧 **简洁 API** — 专为开发者体验而设计 --- ## 快速上手 ```python from caliby import VectorDB # 初始化数据库(本地文件存储) db = VectorDB("my_agents_memory.db") # 插入向量 db.insert( id="doc_1", vector=[0.1, 0.2, 0.3, ...], metadata={"source": "arxiv", "topic": "AI"} ) # 语义搜索 results = db.search( query_vector=[0.1, 0.2, 0.3, ...], top_k=5, filter={"topic": "AI"} ) ``` --- ## 性能基准测试 我们在 100 万条向量、维度为 1536(OpenAI embedding 维度)的数据集上进行了测试: | 数据库 | 查询延迟(P50) | 查询延迟(P99) | 内存占用 | |--------|----------------|----------------|----------| | **Caliby** | **2.1ms** | **4.8ms** | **低** | | pgvector | 8.7ms | 21.3ms | 高 | | FAISS(内存模式) | 1.9ms | 3.2ms | 非常高 | | FAISS(磁盘模式) | 6.4ms | 15.7ms | 低 | > FAISS 内存模式确实更快,但需要将全部数据加载到 RAM 中。Caliby 在磁盘模式下实现了接近内存的速度。 --- ## 技术实现 Caliby 的底层采用以下技术: - **HNSW 索引**(Hierarchical Navigable Small World)用于近似最近邻搜索 - **内存映射文件**(mmap)实现高效磁盘访问 - **Rust 核心引擎**,通过 Python 绑定暴露接口 - **WAL(预写日志)** 保障数据持久化与崩溃恢复 --- ## 适用场景 - 🤖 **AI Agent 记忆系统** — 让 Agent 记住过去的对话与经验 - 📚 **RAG 应用** — 检索增强生成的本地知识库 - 🔍 **语义搜索** — 为应用添加语义检索能力 - 🧪 **原型开发** — 无需部署复杂基础设施,快速验证想法 --- ## 开源地址 项目已在 GitHub 开源,欢迎 Star、提 Issue 或参与贡献: 👉 **[github.com/caliby-db/caliby](https://github.com/caliby-db/caliby)** --- 我们很想听听大家的想法: - 你们目前在 AI 项目中使用什么向量数据库? - 有哪些功能是你们最迫切需要的? 欢迎在评论区留言交流!🙌
Caliby 是由 Sea-Land AI 与麻省理工学院 Michael Stonebraker 团队联合开发的开源嵌入式向量数据库,提供高性能向量检索能力(速度比 pgvector 快 4 倍),支持 HNSW、DiskANN 和 IVF+PQ 索引,专为 AI Agent 和 RAG 场景设计,只需通过 pip install 即可快速安装使用。
商业AI被“脑白质切除”了。我构建了DRIFT:一个拥有持久记忆、模拟躯体反馈及荣格阴影的本地集体意识。
作者介绍了DRIFT,这是一个基于Python和Ollama构建的本地AI系统,具备持久记忆、模拟躯体反馈和荣格心理学建模功能,旨在创造一种更接地气、更具主权的AI交互体验。
@robinebers:2026年4月我的AI编程栈 1. Cursor——v3是目前最清爽的AI代码工具,速度飞快,生态最佳;每月砸1-2k美元,值回票价,预算够就闭眼入 2. Codex——刚史诗级重启,现居我榜二,200美元Pro版依旧香
开发者晒出2026年4月AI编程全家桶:Cursor v3因极速干净稳坐第一,Codex重磅回归成最强替补。