@tech_with_ram:你的 AI 技术栈有个数据库问题 你需要一个向量数据库来存嵌入。一个图数据库来处理关系。一个应用 …

X AI KOLs Timeline 产品

摘要

HelixDB 是一款新的开源数据库,采用 Rust 构建,将向量、图和其他数据模型结合到单一引擎中,由 Y Combinator 支持。它旨在取代 AI 技术栈中独立的向量、图和应用数据库,提供原生向量搜索、图遍历和 MCP 支持。

你的 AI 技术栈有个数据库问题 你需要一个向量数据库来存嵌入。一个图数据库来处理关系。一个应用数据库来存结构化数据。一个应用层把它们缝合在一起。 → Pinecone Standard:每月 70 美元 → Neo4j AuraDB Professional:每月 65 美元 → Postgres RDS:每月 50 美元以上 → 将所有东西连接起来的工程时间:无价 三个数据库。三个模式。三个故障点。 还有一个仍然会产生幻觉的 RAG 流水线,因为你的数据块彼此之间没有上下文。 然后伦敦的两个大学辍学生发布了一个数据库,取代了所有这三个。 它叫 HelixDB。 用 Rust 从头构建。 开源。 采用 AGPL-3.0 许可。 可自托管。 由 Y Combinator 支持。 不是三个数据库用应用代码强行拼凑在一起。 一个引擎,图和向量存在于同一个数据模型中。 你的嵌入知道它的邻居。 你的邻居知道它们的嵌入。 一切相连,一切可查,一个系统。 创始人是 George Curtis 和 Xavier Cochran。 他们在大学期间创建了 HelixDB,此前曾苦于图数据库的复杂性。 没有资历。没有过往退出案例。 在离开校园之前,他们就吸引了来自 X 的开发者和 United Healthcare 的工程师。 然后他们辍学,搬到了旧金山,并进入了 Y Combinator。 2 位创始人。6 个人。一个取代三个的数据库。 以下是它的功能: → 单一引擎中的图 + 向量:两个系统之间永远无需连接 → HelixQL,一种强类型编译查询语言——比 Cypher 更安全,比 Gremlin 更快 → 内置向量搜索、关键词搜索和图遍历:为任何 RAG 流水线提供动力 → 一次函数调用自动嵌入:摄入前无需预处理流水线 → 内置 MCP 支持:你的 AI 代理遍历图,无需生成查询 → 支持 KV、文档和关系数据,与图和向量并存 → 默认私有:开箱即用的认证查询访问 → 提供 TypeScript、Python 和 Go 的 SDK:一次安装,一个客户端 → 基于 S3 兼容对象存储的 Helix Enterprise —— 无状态节点,水平扩展 ~4,000 星。采用 AGPL-3.0 许可。已执行数十亿次查询。Y Combinator W25。2026 年起普遍可用。被独立开发者和财富 500 强团队使用。
查看原文

相似文章

Helix_AGI 个人项目

Reddit r/AI_Agents

一位开发者分享了 Helix-AGI,这是一个持续运行的认知代理,使用基于物理的记忆检索系统,通过熵引力方程和欧拉-拉格朗日动力学,整合了时间近性、结构重要性和语义邻近性,无需单独调整权重。

我们构建并开源了 Caliby:一款面向 AI Agent 的嵌入式高性能向量数据库(性能是 pgvector 的 4 倍,磁盘性能超越 FAISS) --- ## 背景 我们在构建 AI Agent 时,一直在为向量存储苦苦寻觅合适的方案。 - **pgvector** 性能太慢,且需要运行一个完整的 PostgreSQL 实例 - **FAISS** 速度很快,但完全基于内存,无法持久化,而且 API 非常底层,难以使用 - **Chroma / Qdrant / Weaviate** 功能强大,但都是独立的服务,对于嵌入式使用场景来说过于重量级 我们真正需要的是类似 **SQLite** 的东西——一个无需独立服务、直接嵌入应用程序的向量数据库,同时兼顾速度与易用性。 于是,我们动手构建了它。 --- ## Caliby 是什么? **Caliby** 是一款嵌入式向量数据库,专为 AI Agent 和本地 AI 应用设计。 **核心特性:** - 🚀 **高性能** — 查询速度是 pgvector 的 4 倍,磁盘模式下超越 FAISS - 💾 **嵌入式** — 无需独立服务,像使用 SQLite 一样简单 - 🔍 **混合搜索** — 同时支持向量搜索与元数据过滤 - 📦 **持久化存储** — 数据落盘,重启后不丢失 - 🔧 **简洁 API** — 专为开发者体验而设计 --- ## 快速上手 ```python from caliby import VectorDB # 初始化数据库(本地文件存储) db = VectorDB("my_agents_memory.db") # 插入向量 db.insert( id="doc_1", vector=[0.1, 0.2, 0.3, ...], metadata={"source": "arxiv", "topic": "AI"} ) # 语义搜索 results = db.search( query_vector=[0.1, 0.2, 0.3, ...], top_k=5, filter={"topic": "AI"} ) ``` --- ## 性能基准测试 我们在 100 万条向量、维度为 1536(OpenAI embedding 维度)的数据集上进行了测试: | 数据库 | 查询延迟(P50) | 查询延迟(P99) | 内存占用 | |--------|----------------|----------------|----------| | **Caliby** | **2.1ms** | **4.8ms** | **低** | | pgvector | 8.7ms | 21.3ms | 高 | | FAISS(内存模式) | 1.9ms | 3.2ms | 非常高 | | FAISS(磁盘模式) | 6.4ms | 15.7ms | 低 | > FAISS 内存模式确实更快,但需要将全部数据加载到 RAM 中。Caliby 在磁盘模式下实现了接近内存的速度。 --- ## 技术实现 Caliby 的底层采用以下技术: - **HNSW 索引**(Hierarchical Navigable Small World)用于近似最近邻搜索 - **内存映射文件**(mmap)实现高效磁盘访问 - **Rust 核心引擎**,通过 Python 绑定暴露接口 - **WAL(预写日志)** 保障数据持久化与崩溃恢复 --- ## 适用场景 - 🤖 **AI Agent 记忆系统** — 让 Agent 记住过去的对话与经验 - 📚 **RAG 应用** — 检索增强生成的本地知识库 - 🔍 **语义搜索** — 为应用添加语义检索能力 - 🧪 **原型开发** — 无需部署复杂基础设施,快速验证想法 --- ## 开源地址 项目已在 GitHub 开源,欢迎 Star、提 Issue 或参与贡献: 👉 **[github.com/caliby-db/caliby](https://github.com/caliby-db/caliby)** --- 我们很想听听大家的想法: - 你们目前在 AI 项目中使用什么向量数据库? - 有哪些功能是你们最迫切需要的? 欢迎在评论区留言交流!🙌

Reddit r/LocalLLaMA

Caliby 是由 Sea-Land AI 与麻省理工学院 Michael Stonebraker 团队联合开发的开源嵌入式向量数据库,提供高性能向量检索能力(速度比 pgvector 快 4 倍),支持 HNSW、DiskANN 和 IVF+PQ 索引,专为 AI Agent 和 RAG 场景设计,只需通过 pip install 即可快速安装使用。