@rohit4verse: https://x.com/rohit4verse/status/2070861975358525500

X AI KOLs Timeline 工具

摘要

本文解析了如Hermes和OpenClaw等个人AI代理的架构,解释了运行在个人硬件上的持久化、始终在线程序如何为用户过滤和总结信息,超越了聊天机器人的范式。

https://t.co/RZutT4s9AR
查看原文
查看缓存全文

缓存时间: 2026/06/28 03:59

个人智能体剖析:解读Hermes、OpenClaw与智能体操作系统时代背后的架构

此刻,我服务器上的一个程序正在替我阅读X,我不必亲自动手。

每三小时它醒来一次,扫描时间线,把发现的内容分成两堆:值得我关注的帖子,和噪音。它扔掉噪音。把剩下的内容以简短摘要发到我的Telegram——告诉你什么在变化,什么可以忽略,哪件事是你今天真正该思考的。

我已经几周没打开那个应用了。但也什么都没错过。

感觉它像是在为我思考。

其实不是。它只是一个定时任务、一个数据库和一个模型。这就是全部把戏。好消息是,一旦你看穿了把戏,你就能自己搭建它——然后就不再对那些兜售魔法的人感到惊叹了。

让我给你看看这台机器。

个人智能体究竟是什么

先放下炒作。个人智能体就是四样普通东西拼在一起:

它在你控制的硬件上运行。它保持在线。它通过你已经在用的应用——Telegram、WhatsApp、Slack、iMessage——与你对话。而且它在对话之间记住你。

就这些。整个品类就是如此。

它和你已经熟知的聊天机器人选项卡的区别不在于智能。而在于存在感。聊天选项卡在你关闭它的那一刻就忘了你。个人智能体不会关闭。这就像开车去办公室问同事一个问题,和同事就坐在你房间里之间的区别。同一个人。完全不同的关系。

本文中其他一切内容——架构、两大工具、安全噩梦、旧金山湾区每家公司突然都在造一个的原因——都源于这一个转变:从一个你去访问的东西,变成一个与你共存的东西。

始于一个不想给自己工具当保姆的人

每一次转变都有一个无聊的起源。这次源于一位名叫 Peter Steinberger 的开发者的一个痒点。

我们现在有了能推理、能写代码、能操控浏览器的模型。但我们与它们对话的方式是断裂的。打开一个选项卡,粘贴上下文,得到一个回答,关闭选项卡,看着模型忘记你的存在。每一次对话都从零开始。

Steinberger 的问题是一个显而易见、但几乎没人拿出干净答案的问题:如果它不停止呢?如果模型作为进程活在你的机器上,永远不关闭那个选项卡,你可以从手机上给它发短信,它可以自己醒来并行动呢?

他造出来了。他管它叫 Moltbot。一个个人工具,不是一家创业公司。第一个版本他做得很快——大约一个月,并且自己重度使用一个AI智能体来编写代码。一个执着的人为自己打造的工具,通常比委员会版本更好,因为没有产品经理在打磨棱角。Moltbot 锐利,因为它是个人的。

然后在2026年2月,他加入了OpenAI。当你在一家前沿实验室工作时,你无法同时运营一个快速增长的开源项目作为个人副业,所以它被移入了一个基金会并更名。

Moltbot 变成了 OpenClaw

如果我用一句话概括 OpenClaw,那就是:一个用于运行定时任务的精心构造的框架。听起来很小。其实不然。几乎所有人称为“智能体“的东西,本质上都是按计划或事件触发并允许采取行动的东西。OpenClaw 让这件事变得简单,把它连接到每一个聊天应用,并把整个系统开源。MIT 许可。它一推广开来,成千上万的人感受到了我阅读X时的感受,开始构建自己的版本。

人们实际怎么用,以及用得有多差

这是我的设置,因为这是我能给出的最干净的示例。

Hermes 运行在一个 VPS(一个廉价的租用服务器,不是我的笔记本)上。它接到我的 Telegram 上。一个定时任务每三小时触发一次,运行一个任务:阅读X,找出重要内容,发到我的聊天里。

纯文本
每3小时:
   阅读时间线 →
   对每条帖子分类 → [忽略] 或 [处理/思考] →
   总结保留的内容 →
   发送到 Telegram

这带给我的不是“摘要“。而是末日滚动的终结。我不再坐在信息流里假装监测趋势,同时算法收割我的注意力。智能体在后台阅读;我得到信号;我把真正的大脑用在思考信号上,而不是寻找它。机器负责搜索。我负责思考。这就是每一次你想要的交易。

现在说大多数人都忽略的部分。

打开X,所有人都在用这些智能体做同样三件无聊的事:总结邮件、读取日志、整理反馈。那些过去手工完成的枯燥琐事。好吧——这是真正的价值。但这是这件东西的最小版本。

如果编排得好,个人智能体就不是一个邮件摘要器。它是一个系统。它可以阅读你的消息并草拟回复。观察你的销售情况并标记下滑的部分。读取你的图表并告诉你什么变了。从三个仪表盘中拉出一个相关数字,这样你就不用打开它们。邮件那件事是演示。系统才是产品。大多数人都停在演示阶段。

Mac mini 的问题

每次网上有人讨论这个话题,总会有人说:买一台 Mac mini,在上面跑 OpenClaw 或 Hermes。

我会停下来问为什么。

个人智能体的全部卖点是对你的文件、消息、终端的访问。但这些模型会幻觉。给它对你真实机器的完全控制权,并在某个时刻让它丢失上下文,它就可能采取不该采取的行动。删除错误的文件夹。运行错误的命令。不是出于恶意——而是出于没有上下文的自信。这就是真正的风险,而且它很平凡,不神秘。

这就是为什么我的智能体住在 VPS 上,权限受限,离我的真实文件很远。智能体得到恰好够用的绳索去做它的工作,多一寸都没有。记住这个直觉——给它最窄的访问权限,只要还能工作就行——因为当我们谈到安全时,这就是全部游戏。

七部分机器

这是整篇文章里我告诉你最有用的东西:

一个给人自主感的智能体不是一颗醒来就思考的大脑。它是 输入 + 状态 + 一个循环

自主性不是思想的火花。它是一个工程范式,包装得足够好,让人感觉活着。一旦你掌握了这个,你就不再被迷惑,而是能够构建、评判和拆解这些东西。

每一个个人智能体:OpenClaw、Hermes,以及所有克隆,都是同样的七层结构。

1. 网关。 一个长期运行的进程。它是真正“永远在线“的部分。它连接到每一个聊天应用,并持有真相——客户端问它,而不是自己去翻文件。把它想象成内核。

2. 循环。 引擎。智能体做的每一件事——无论你是发消息给它还是定时器唤醒它——都运行同样的循环:

while True:
    event   = wait_for_input()        # 一条消息、一个心跳、一个webhook、一个定时任务
    context = load_state(event)       # 历史 + 数据库 + 记忆,拼成提示词
    reply   = model.call(context)     # 一次“思考”

    while reply.tool_calls:           # 如果它想行动,就让它行动——然后再思考
        results = run_tools(reply.tool_calls)   # shell、文件、浏览器、网络
        context.append(results)
        reply = model.call(context)

    persist(event, reply)             # 记下来,这样重启不会清空
    if reply.text:
        respond(event.channel, reply.text)
    # else: 保持安静。什么都不做是一个真实的输出。

读两遍。这就是智能体。加载上下文,调用模型,让它使用工具,记下发生了什么,也许回复。整个“心智“就是这个循环。

3. 记忆。 磁盘上的状态——一个运行记录加上一个可搜索的数据库——这样智能体在重启后能存活,并随着时间成为你的。这是这个东西的文件系统。

4. 技能。 可复用的流程,通常用纯 Markdown 编写。“如何部署。”“如何写周报。“整个品类最大的分叉就在这里:人类编写的技能 vs. 智能体自己编写的技能。记住这个想法。

5. 工具。 手。Shell、文件、它能操控的浏览器、网络搜索,以及连接到其他系统的接口。力量在这里——后面,危险也在这里。

6. 心跳。 它感觉活着的原因,而且它简单得令人尴尬。一个定时器按间隔触发,向循环中丢入一个假事件,就像你给它发了消息一样。智能体醒来,思考,并决定是否有事可做。我的X阅读器就是这个——每三小时一次心跳。机器里的幽灵就是一个定时任务。

7. 模型。 实际的 LLM,通过一个可替换的抽象层接入。云端或本地。智能体是脚手架;模型是你塞进去的引擎。

七个部分。网关、循环、记忆、技能、工具、心跳、模型。学会它们,你就可以拆解地球上任何一个个人智能体,包括那些还不存在的。

现在看两个团队在这个相同的骨架上建造相反的动物。

OpenClaw:那一个负责编排的

OpenClaw 的整个性格是 中心和辐射

有一个中心网关守护进程,它是所有东西的交通控制器——每一个聊天平台、每一个客户端、每一个定时任务、每其他智能体。它们都是辐射部分。中心持有真相。

它的赌注是广度。无处不在。连接到十五个以上的平台。推出一个市场 ClawHub,人们可以像发布应用一样发布和安装技能。让智能体产生并与其他智能体对话。甚至还有一个托管版本给那些不想自己运行守护进程的人。

它的大规模重写以一个代号发布,这个代号精确地告诉了你他们怎么想:“智能体操作系统”。不是一个聊天机器人框架。一个操作系统。你将会看到,这不是在炫耀——这是准确的。

OpenClaw 对“什么是个人智能体?“的回答是:一个控制平面,协调多个智能体、多个渠道,以及一个人类构建技能的市场。它向外扩展。

Hermes:那一个学会的

Hermes 来自 Nous Research,也就是 Hermes 开源模型背后的实验室。它问了一个比“如何连接到一切“更尖锐的问题:

如果你构建一个智能体,你用得越久,它就会变得越好——不是因为你配置了它,而是因为它自己学会了?

当记忆部分到来时,一切都变了。在那之前,智能体就像一个非常聪明的陌生人,你每天早上都要重新介绍自己。有了真正的记忆,它开始记住你的行为、你的纠正、你的偏好。它积累你。

这就是为什么这在实践中很重要。把 Hermes 连接到一个像 Obsidian 这样的工具——一个基于 wiki 链接和知识图谱的笔记应用——智能体就能像你一样浏览你自己的笔记,跟随链接,并发现你忘记自己写过的视角。如果你是一个创作者或作家,它能跨越几个月连接想法。如果你是一个企业家,你可以让它在后台研究你自己过去的创业经历——什么真正有效,什么没效,模式在哪里——而不是相信你的记忆,而这恰恰是人类最不擅长的。

引擎是一个闭环:解决 → 记下你学到的东西 → 下次检索它 → 完善它

两个部分让这个循环真实且值得理解:

它会自己写技能。 当一个任务完成时,智能体会自问这条路径是否值得保存——而且它只保存那些需要花费代价去搞清楚的东西:花了很多步骤的任务、必须从中恢复的bug、你给它的纠正、那个非显而易见的有效技巧。然后它写入一个可复用的技能文件。没有人类写它。智能体自己写的,这样它就不必再为同一件事费劲。

---
name: deploy-staging
triggers: ["deploy to staging"]
uses: 7
---
## 步骤
1. 构建web应用。如果失败,读取错误,修复导入,重试一次。
2. 运行测试。只在绿灯时继续。
3. 部署到staging。将URL发布到#eng频道。

它的记忆是被策展的,不是被囤积的。 始终加载的记忆有一个硬性的容量上限——几千个字符,不是无限。这个限制就是特性。它迫使智能体保留重要的,丢弃不重要的,就像一个好笔记本胜过一堆收据。而且它按需搜索过去,而不是把整个历史拖入每一次对话。

解决、记录、检索、完善。这是一个能学习的东西,由普通文件和数据库构建,不做权重调整。它学习的方式就像一个敏锐的人带着一个优秀笔记本学习的方式。

Hermes 对“什么是个人智能体?“的回答是:一个会复合增长的私人智能体。它向内扩展。

所以:OpenClaw 是广度和编排。Hermes 是深度和记忆。如果你想你的智能体无处不在,并带有一个现成技能的市场,选 OpenClaw。如果你想一个每周都变得更敏锐、且从第一次提交起就精心构建的私人智能体,选 Hermes。并且要知道它们正在向彼此冲刺——OpenClaw 在添加记忆,Hermes 在添加覆盖范围。赢家很可能是那个融合了两者的人。

每个人都搞错的部分:循环不是答案

现在工程领域最喜欢的短语是 循环工程。Boris Cherny(构建了 Claude Code 的人)、Steinberger,基本上每个严肃工程师都在说。想法是:建立一个循环,一个智能体写代码,另一个预览,另一个检查,然后它旋转——写、测、修、重复——直到每个框都变绿。

这很强大。但它也是人们失去焦点的地方。

有一件事没有人说得足够清楚:让代码没有bug是第二个问题。第一个问题是建造值得发布的东西。一个出色的特性。而这种口味、方向、知道什么值得构建——不在循环里。它在你自己身上。

让一个智能体完全无监督地迭代,看看会发生什么。它会收敛。它写代码像一个状态机——死板、正确、无生机。它优化你指向的那个东西,但什么也发明不了,因为发明不是优化。AI 确实擅长朝着一个方向推理。但它不擅长选择方向。还没有。

所以关键不是“构建一个更聪明的循环“。关键是留一扇窗——一个智能体停下来问你去哪里的点,然后你伸手进去引导。完全自主性适合已知的和无聊的事情。当你想发明某样东西时,人类必须打断循环,给它正确的输入。这不是系统的弱点。这是系统在正常工作。

方向胜过自主性——一个调试故事

让我具体化,因为我经历过。

我当时在追一个bug。我把所有信息都给了智能体——每一个细微差别、每一条日志、我拥有的每一个细节。我告诉它:你是一个取证式找bug智能体。它原地打转。什么都没找到。

所以我只改了一件事。不是信息——是方向。我把智能体重构为按假设推理:形成一个理论,去寻找证据,向每个方向分支,假定什么都没有。同一个模型。同一个bug。同一些日志。

它找到了。修好了。

纯文本
之前:"你是一个取证式找bug智能体。这里有细节..."   → 原地打转,没找到bug

之后:"你是一个多疑的高级工程师。假设一定有个BUG,
         直到你能证明没有。形成一个假说,搜索
         证据,向每个方向分支。"                          → 找到了

为什么这能奏效?因为这些模型是在开放的互联网上训练的——Reddit、Stack Overflow、无尽的讨论线程,人们在那里争论出答案。你的提示词决定了它从哪些模式中拉取。把它指向错误的框架,它会自信地给出错误形状的答案。把它指向正确的框架,它会拉取好的东西。提示词里的细节不是装饰。它是方向盘。

这就是为什么“只要把它放进循环“会失败。一个没有方向的循环不会更快找到答案——它会更快找到错误的答案。提示工程在智能体时代并没有消亡。它变成了你所做的最具杠杆作用的事情。一句话——“假设一定有个BUG,直到你能证明没有”——可能意味着浪费一个下午和十分钟解决问题之间的区别。

这个教训超越了调试本身。

相似文章

@PrajwalTomar_: https://x.com/PrajwalTomar_/status/2064324584254710262

X AI KOLs Following

Nous Research 的 Hermes Agent 是一款开源自主 AI 代理,它在服务器上持续运行,跨会话记住每一次对话,并自主创建技能文件,使其与 Claude Code 和 Cursor 等基于会话的编码工具截然不同,属于一个根本不同的代理类别。