@PrajwalTomar_: https://x.com/PrajwalTomar_/status/2069409824824316060

X AI KOLs Following 新闻

摘要

作者构建了一个完全离线的AI代理,使用本地嵌入模型、通过Ollama的Llama模型以及VectorAI数据库,旨在解决依赖云端的AI所带来的风险。该代理运行在一台8GB内存的MacBook上,能够处理敏感文档,并在多个会话之间保持记忆。

https://t.co/ileUDE4ENV
查看原文
查看缓存全文

缓存时间: 2026/06/23 15:51

我构建了一个完全离线运行的私有AI Agent。这是工作流程。

6月9日,Anthropic发布了Claude Fable 5,这是有史以来最强大的模型。

6月12日,美国政府以一纸出口禁令将其下架。一夜之间,对所有用户消失了。

好好想想这件事。一个数亿人依赖的模型,被一张公文就关停了。不是你的模型,不是你能决定的。别人按了个开关,你基于它构建的AI Agent就不复存在了。

这就是建立在他人云端上的真正风险。你的访问权限是一种许可,而许可是可以被撤回的。

所以,几乎没人正在构建的东西来了:一个完全不依赖任何云端的Agent。完全本地化,运行良好,放到哪里都能跑。一台笔记本电脑,一台私有服务器,一台工厂车间里根本没有互联网的机器。

我构建了一个来证明这确实可行。整个技术栈跑在一台基础配置的8GB MacBook上。没有云,没有API密钥。我关掉Wi-Fi,它依然能回答。

工作流程如下。

整个技术栈运行在我的笔记本电脑内部。嵌入模型、向量数据库和LLM都在本地相互通信。

整个技术栈运行在我的笔记本电脑内部。嵌入模型、向量数据库和LLM都在本地相互通信。

没人愿意说出口的问题

几乎所有你用过的AI Agent工作方式都一样。你的提示词、你的文档、你的客户数据,全部被发送到你无法控制的服务器上,在那里处理,然后返回给你。

对于个人项目来说没问题。但对于真正的公司,这种做法开始行不通了。

如果你从事医疗、金融、法律或国防行业,有些文档你根本不允许发送给第三方服务器。不是“不应该“,而是不允许。在制造业,工厂车间的质量控制系统需要实时做出决策,往返云端API太慢、太脆弱,无法依赖。

说实话,技术终于跟上了需求。苹果在口袋里的设备上运行模型。Meta和Google免费提供可在笔记本电脑上运行的模型。开源的嵌入模型既优秀又免费。在自己的硬件上完全运行AI的所有组件都已就绪。

剩下的唯一问题是:你是否真能把它们组装成有用的东西。于是我就做了。

我构建了什么

一个私有的第二大脑。一个Agent,我指向一个包含敏感文档的文件夹,用自然语言提问,就能得到真实答案。完全离线。

它还能记忆。在一个会话中告诉它一些信息,关闭它,第二天重新打开,它仍然记得。这是大多数“本地AI“演示跳过的部分,而恰恰是真正重要的部分。

技术栈由四个组件组成,全部运行在同一台8GB笔记本电脑上:

→ 本地嵌入模型(sentence-transformers),将文本转化为可搜索的向量

→ 本地语言模型(Llama,通过Ollama运行),负责撰写答案

→ VectorAI DB(本地运行在Docker中),存储文档和记忆

→ 一小段Python代码,将它们粘合在一起成为一个Agent

对于文档,我特意使用了公开的监管文本:《通用数据保护条例》(GDPR)和美国国家标准与技术研究院人工智能风险管理框架(NIST AI RMF)。正是那种真实合规团队每天处理的、密集、敏感、“不能泄露“的材料。

VectorAI DB到底是什么

这是让整个系统运转的核心部分,所以值得说清楚。

VectorAI DB是一个向量数据库。它将文本存储为向量(捕捉意义的数字列表),让你可以通过含义而非关键词进行搜索。问“人们对他们的数据拥有什么权利“,它能找到对应的GDPR条款,即使文档中从未使用过“权利“这个词。

两件事让它成为这个构建的正确选择。

首先,它本地运行。一条Docker命令就能在你的机器上启动,并在浏览器中提供本地仪表板。没有任何内容回传给外部。

其次,这也是关键点,它是这个技术栈中你绝不想在生产环境中以原始开源方式自行部署的部分。

嵌入模型和语言模型都是开源的,你可以一直自己运行它们。但数据库是你的数据存放之处。它是必须保持稳定、一致、能干净恢复,并在数据增长时能够扩展的组件。开源提供组件,但不提供支持或生产级加固。VectorAI DB是一个真正团队可以实际运行的组件,而无需承担照顾自托管安装的操作风险。

这个区别就是整个企业级用例的关键。你自己做模型(DIY),但不要自己做数据库(DIY)。

第一步:在自己的机器上运行数据库

一条Docker命令即可在本地启动VectorAI DB。它附带一个本地UI,你可以在浏览器中打开,查看你的集合(collection)和数据。

VectorAI DB在Docker中本地运行。一个容器,在我的机器上运行着,没有任何云端账户。

VectorAI DB在Docker中本地运行。一个容器,在我的机器上运行着,没有任何云端账户。

VectorAI DB仪表板在浏览器中打开于localhost。数据库、集合及其健康状态,全部运行在笔记本电脑上。

VectorAI DB仪表板在浏览器中打开于localhost。数据库、集合及其健康状态,全部运行在笔记本电脑上。

第二步:将你的文档转化为本地记忆

Agent读取每个PDF,将其分割成块(chunk),并使用本地嵌入模型将每个块转化为向量。这些向量存储在VectorAI DB中。这一切都在笔记本电脑上完成。文档从不离开。

输入GDPR和NIST文档。Agent将它们分割成块,在本地嵌入每个块,并将全部876个块存储在VectorAI DB中。文件从不离开机器。

输入GDPR和NIST文档。Agent将它们分割成块,在本地嵌入每个块,并将全部876个块存储在VectorAI DB中。文件从不离开机器。

第三步:本地运行语言模型

负责撰写答案的模型通过Ollama运行,完全在机器上。没有API密钥,没有账户,没有任何请求离开笔记本电脑。

我运行了一个小型的Llama模型,以便在8GB内存上舒适运行。这是一个重要的诚实点:你不需要服务器农场,普通笔记本电脑就足够了。

语言模型通过Ollama回答,完全在笔记本电脑上运行。没有API密钥,没有账户,没有任何内容离开机器。

语言模型通过Ollama回答,完全在笔记本电脑上运行。没有API密钥,没有账户,没有任何内容离开机器。

第四步:给Agent赋予持久记忆

到这里,它不再是一个搜索框,而成为一个Agent。

每一次交互都被保存到VectorAI DB中名为“memory“的第二个集合中。当你提出新问题时,Agent会在回答前同时搜索你的文档和它自己对过往对话的记忆。

由于VectorAI DB将这些数据写入机器磁盘,记忆在完全重启后仍然存在。我在一个会话中告诉Agent我的公司从事医疗行业。关闭它。重新打开。询问哪些GDPR义务对我的公司重要。它记住了,并正确回答。

会话一。我告诉Agent我的公司叫Northwind,从事医疗行业,然后我完全关闭会话。

会话一。我告诉Agent我的公司叫Northwind,从事医疗行业,然后我完全关闭会话。

会话二,全新的运行。我问我的公司叫什么以及做什么。它依然记得,因为记忆存储在VectorAI DB的磁盘上。

会话二,全新的运行。我问我的公司叫什么以及做什么。它依然记得,因为记忆存储在VectorAI DB的磁盘上。

第五步:证明一切的测试

这是最关键的时刻。声称是“没有任何内容触及云端“。所以我用最简单的方式证明了。

我在Wi-Fi开启时向Agent提问。它回答了。然后我在镜头前关闭Wi-Fi,提出一个后续问题,这个问题需要参考文档以及我们之前对话的记忆。

它再次回答。质量相同。互联网完全断开。

这就是整个论点,十五秒内说明一切。不需要任何基准测试图表。断开的Wi-Fi图标就是证明。

Wi-Fi开启,Agent回答。然后我在镜头前关闭Wi-Fi,提出一个需要参考文档和之前对话的后续问题。回答质量相同,完全离线。

Wi-Fi开启,Agent回答。然后我在镜头前关闭Wi-Fi,提出一个需要参考文档和之前对话的后续问题。回答质量相同,完全离线。

什么时候本地方案真正有意义(以及什么时候没有)

我不会告诉你本地方案在一切方面都胜过云端。它并不。以下是诚实的决策框架。

使用完全本地技术栈的场景:

→ 你处理的数据在法律上不能离开你的环境(医疗、金融、法律、国防)

→ 你在云端往返太慢或不可靠的环境中运行(工厂车间质检、边缘设备、远程站点)

→ 规模扩大时成本很重要,你厌倦了永远按token付费

→ 隐私本身就是产品,你需要能够证明没有任何内容离开机器

坚持使用云端的场景:

→ 你需要最前沿的推理能力来处理困难、开放式的任务

→ 你的工作负载是突发性的,你不想管理任何基础设施

→ 你的数据不敏感,上市速度胜过一切

对于像这样的基于检索的Agent工作负载,好的本地模型与前沿云端模型之间的性能差距远小于人们想象。而合规差距和成本差距则巨大。这就是本地方案值得权衡之处。

需要注意什么

我遇到四个诚实的问题。

→ 本地模型更小。对于深度、开放式的推理,前沿云端模型仍然胜出。但对于从你的文档中回答问题,小型本地模型已经足够。

→ 内存很重要。8GB是底线。它能运行,但你需要保持模型小巧并关闭其他应用。16GB或更多会舒适得多。

→ 质量需要一些微调。如何分割文档以及拉回多少结果会影响答案。预留一个小时来调优。

→ 数据库是你不应省钱的部分。在生产中运行向量数据库是真正的运维工作。这正是VectorAI DB旨在填补的差距。

这实际上意味着什么

两年来,对于“我如何构建AI Agent“这个问题的默认答案是“调用云端API“。对于大量且日益增长的真实公司,这个答案现在已经失效了——不是因为它们多疑,而是因为法律、延迟或成本说不。

自己运行整套技术的组件终于足够好了。可以在笔记本电脑上运行的开源模型,开源嵌入,以及一个你可以今天本地运行、明天生产加固的向量数据库,而无需承担照顾原始开源的风险。

我在一台8GB MacBook上关掉Wi-Fi证明了这一点。一个真正的团队可以做得更多。

2026年对于那些早早掌握本地AI的构建者来说,将是不公平的优势。

TLDR(太长不看版)

→ 构建了一个完全离线运行的私有AI Agent,运行在一台基础配置的8GB笔记本电脑上

→ 技术栈:本地嵌入 + 本地LLM(Ollama)+ Docker中的VectorAI DB

→ VectorAI DB同时存储文档和Agent的持久记忆

→ 关掉Wi-Fi,它依然能检索、推理和记忆

→ 开源提供组件,但不提供支持或生产加固

→ 模型你可以自己DIY。数据库是你要用VectorAI DB来运行的部分

→ 对于受监管行业和边缘用例,本地方案不再是可选项

→ 你可以今天就在本地运行VectorAI DB,并在准备好时进行生产加固。从这里开始。

互联网从来不是必需的。我们只是以为它是。

冲吧。

相似文章

使用 llama.cpp 在本地运行的自动化 AI 研究员

Reddit r/LocalLLaMA

ml-intern 是一个面向 AI 代理的工具,它与 Hugging Face 的库集成,现在支持通过 llama.cpp 或 ollama 运行本地模型,使得自动化 AI 研究员可以在笔记本电脑上全天候运行。

@mronge: https://x.com/mronge/status/2052846432969720202

X AI KOLs Timeline

一份在 Mac mini 上搭建全天候 AI 代理的实用指南,涵盖硬件选型、云端与本地 AI 模型的权衡取舍,以及用于自动化销售报告、社交媒体建议等任务的代理系统选择。

@PrajwalTomar_: https://x.com/PrajwalTomar_/status/2064324584254710262

X AI KOLs Following

Nous Research 的 Hermes Agent 是一款开源自主 AI 代理,它在服务器上持续运行,跨会话记住每一次对话,并自主创建技能文件,使其与 Claude Code 和 Cursor 等基于会话的编码工具截然不同,属于一个根本不同的代理类别。