@rohit4verse: https://x.com/rohit4verse/status/2070861975358525500

X AI KOLs Timeline 2026/06/27 13:29 工具

personal-agent openclaw hermes architecture cron-jobs ai-agent open-source

摘要

本文解析了如Hermes和OpenClaw等个人AI代理的架构，解释了运行在个人硬件上的持久化、始终在线程序如何为用户过滤和总结信息，超越了聊天机器人的范式。

https://t.co/RZutT4s9AR

查看原文

查看缓存全文

缓存时间: 2026/06/28 03:59

个人智能体剖析：解读Hermes、OpenClaw与智能体操作系统时代背后的架构

此刻，我服务器上的一个程序正在替我阅读X，我不必亲自动手。

每三小时它醒来一次，扫描时间线，把发现的内容分成两堆：值得我关注的帖子，和噪音。它扔掉噪音。把剩下的内容以简短摘要发到我的Telegram——告诉你什么在变化，什么可以忽略，哪件事是你今天真正该思考的。

我已经几周没打开那个应用了。但也什么都没错过。

感觉它像是在为我思考。

其实不是。它只是一个定时任务、一个数据库和一个模型。这就是全部把戏。好消息是，一旦你看穿了把戏，你就能自己搭建它——然后就不再对那些兜售魔法的人感到惊叹了。

让我给你看看这台机器。

个人智能体究竟是什么

先放下炒作。个人智能体就是四样普通东西拼在一起：

它在你控制的硬件上运行。它保持在线。它通过你已经在用的应用——Telegram、WhatsApp、Slack、iMessage——与你对话。而且它在对话之间记住你。

就这些。整个品类就是如此。

它和你已经熟知的聊天机器人选项卡的区别不在于智能。而在于存在感。聊天选项卡在你关闭它的那一刻就忘了你。个人智能体不会关闭。这就像开车去办公室问同事一个问题，和同事就坐在你房间里之间的区别。同一个人。完全不同的关系。

本文中其他一切内容——架构、两大工具、安全噩梦、旧金山湾区每家公司突然都在造一个的原因——都源于这一个转变：从一个你去访问的东西，变成一个与你共存的东西。

始于一个不想给自己工具当保姆的人

每一次转变都有一个无聊的起源。这次源于一位名叫 Peter Steinberger 的开发者的一个痒点。

我们现在有了能推理、能写代码、能操控浏览器的模型。但我们与它们对话的方式是断裂的。打开一个选项卡，粘贴上下文，得到一个回答，关闭选项卡，看着模型忘记你的存在。每一次对话都从零开始。

Steinberger 的问题是一个显而易见、但几乎没人拿出干净答案的问题：如果它不停止呢？如果模型作为进程活在你的机器上，永远不关闭那个选项卡，你可以从手机上给它发短信，它可以自己醒来并行动呢？

他造出来了。他管它叫 Moltbot。一个个人工具，不是一家创业公司。第一个版本他做得很快——大约一个月，并且自己重度使用一个AI智能体来编写代码。一个执着的人为自己打造的工具，通常比委员会版本更好，因为没有产品经理在打磨棱角。Moltbot 锐利，因为它是个人的。

然后在2026年2月，他加入了OpenAI。当你在一家前沿实验室工作时，你无法同时运营一个快速增长的开源项目作为个人副业，所以它被移入了一个基金会并更名。

Moltbot 变成了 OpenClaw。

如果我用一句话概括 OpenClaw，那就是：一个用于运行定时任务的精心构造的框架。听起来很小。其实不然。几乎所有人称为“智能体“的东西，本质上都是按计划或事件触发并允许采取行动的东西。OpenClaw 让这件事变得简单，把它连接到每一个聊天应用，并把整个系统开源。MIT 许可。它一推广开来，成千上万的人感受到了我阅读X时的感受，开始构建自己的版本。

人们实际怎么用，以及用得有多差

这是我的设置，因为这是我能给出的最干净的示例。

Hermes 运行在一个 VPS（一个廉价的租用服务器，不是我的笔记本）上。它接到我的 Telegram 上。一个定时任务每三小时触发一次，运行一个任务：阅读X，找出重要内容，发到我的聊天里。

纯文本
每3小时：
   阅读时间线 →
   对每条帖子分类 → [忽略] 或 [处理/思考] →
   总结保留的内容 →
   发送到 Telegram

这带给我的不是“摘要“。而是末日滚动的终结。我不再坐在信息流里假装监测趋势，同时算法收割我的注意力。智能体在后台阅读；我得到信号；我把真正的大脑用在思考信号上，而不是寻找它。机器负责搜索。我负责思考。这就是每一次你想要的交易。

现在说大多数人都忽略的部分。

打开X，所有人都在用这些智能体做同样三件无聊的事：总结邮件、读取日志、整理反馈。那些过去手工完成的枯燥琐事。好吧——这是真正的价值。但这是这件东西的最小版本。

如果编排得好，个人智能体就不是一个邮件摘要器。它是一个系统。它可以阅读你的消息并草拟回复。观察你的销售情况并标记下滑的部分。读取你的图表并告诉你什么变了。从三个仪表盘中拉出一个相关数字，这样你就不用打开它们。邮件那件事是演示。系统才是产品。大多数人都停在演示阶段。

Mac mini 的问题

每次网上有人讨论这个话题，总会有人说：买一台 Mac mini，在上面跑 OpenClaw 或 Hermes。

我会停下来问为什么。

个人智能体的全部卖点是对你的文件、消息、终端的访问。但这些模型会幻觉。给它对你真实机器的完全控制权，并在某个时刻让它丢失上下文，它就可能采取不该采取的行动。删除错误的文件夹。运行错误的命令。不是出于恶意——而是出于没有上下文的自信。这就是真正的风险，而且它很平凡，不神秘。

这就是为什么我的智能体住在 VPS 上，权限受限，离我的真实文件很远。智能体得到恰好够用的绳索去做它的工作，多一寸都没有。记住这个直觉——给它最窄的访问权限，只要还能工作就行——因为当我们谈到安全时，这就是全部游戏。

七部分机器

这是整篇文章里我告诉你最有用的东西：

一个给人自主感的智能体不是一颗醒来就思考的大脑。它是 输入 + 状态 + 一个循环。

自主性不是思想的火花。它是一个工程范式，包装得足够好，让人感觉活着。一旦你掌握了这个，你就不再被迷惑，而是能够构建、评判和拆解这些东西。

每一个个人智能体：OpenClaw、Hermes，以及所有克隆，都是同样的七层结构。

1. 网关。 一个长期运行的进程。它是真正“永远在线“的部分。它连接到每一个聊天应用，并持有真相——客户端问它，而不是自己去翻文件。把它想象成内核。

2. 循环。 引擎。智能体做的每一件事——无论你是发消息给它还是定时器唤醒它——都运行同样的循环：

while True:
    event   = wait_for_input()        # 一条消息、一个心跳、一个webhook、一个定时任务
    context = load_state(event)       # 历史 + 数据库 + 记忆，拼成提示词
    reply   = model.call(context)     # 一次“思考”

    while reply.tool_calls:           # 如果它想行动，就让它行动——然后再思考
        results = run_tools(reply.tool_calls)   # shell、文件、浏览器、网络
        context.append(results)
        reply = model.call(context)

    persist(event, reply)             # 记下来，这样重启不会清空
    if reply.text:
        respond(event.channel, reply.text)
    # else: 保持安静。什么都不做是一个真实的输出。

读两遍。这就是智能体。加载上下文，调用模型，让它使用工具，记下发生了什么，也许回复。整个“心智“就是这个循环。

3. 记忆。 磁盘上的状态——一个运行记录加上一个可搜索的数据库——这样智能体在重启后能存活，并随着时间成为你的。这是这个东西的文件系统。

4. 技能。 可复用的流程，通常用纯 Markdown 编写。“如何部署。”“如何写周报。“整个品类最大的分叉就在这里：人类编写的技能 vs. 智能体自己编写的技能。记住这个想法。

5. 工具。 手。Shell、文件、它能操控的浏览器、网络搜索，以及连接到其他系统的接口。力量在这里——后面，危险也在这里。

6. 心跳。 它感觉活着的原因，而且它简单得令人尴尬。一个定时器按间隔触发，向循环中丢入一个假事件，就像你给它发了消息一样。智能体醒来，思考，并决定是否有事可做。我的X阅读器就是这个——每三小时一次心跳。机器里的幽灵就是一个定时任务。

7. 模型。 实际的 LLM，通过一个可替换的抽象层接入。云端或本地。智能体是脚手架；模型是你塞进去的引擎。

七个部分。网关、循环、记忆、技能、工具、心跳、模型。学会它们，你就可以拆解地球上任何一个个人智能体，包括那些还不存在的。

现在看两个团队在这个相同的骨架上建造相反的动物。

OpenClaw：那一个负责编排的

OpenClaw 的整个性格是 中心和辐射。

有一个中心网关守护进程，它是所有东西的交通控制器——每一个聊天平台、每一个客户端、每一个定时任务、每其他智能体。它们都是辐射部分。中心持有真相。

它的赌注是广度。无处不在。连接到十五个以上的平台。推出一个市场 ClawHub，人们可以像发布应用一样发布和安装技能。让智能体产生并与其他智能体对话。甚至还有一个托管版本给那些不想自己运行守护进程的人。

它的大规模重写以一个代号发布，这个代号精确地告诉了你他们怎么想：“智能体操作系统”。不是一个聊天机器人框架。一个操作系统。你将会看到，这不是在炫耀——这是准确的。

OpenClaw 对“什么是个人智能体？“的回答是：一个控制平面，协调多个智能体、多个渠道，以及一个人类构建技能的市场。它向外扩展。

Hermes：那一个学会的

Hermes 来自 Nous Research，也就是 Hermes 开源模型背后的实验室。它问了一个比“如何连接到一切“更尖锐的问题：

如果你构建一个智能体，你用得越久，它就会变得越好——不是因为你配置了它，而是因为它自己学会了？

当记忆部分到来时，一切都变了。在那之前，智能体就像一个非常聪明的陌生人，你每天早上都要重新介绍自己。有了真正的记忆，它开始记住你的行为、你的纠正、你的偏好。它积累你。

这就是为什么这在实践中很重要。把 Hermes 连接到一个像 Obsidian 这样的工具——一个基于 wiki 链接和知识图谱的笔记应用——智能体就能像你一样浏览你自己的笔记，跟随链接，并发现你忘记自己写过的视角。如果你是一个创作者或作家，它能跨越几个月连接想法。如果你是一个企业家，你可以让它在后台研究你自己过去的创业经历——什么真正有效，什么没效，模式在哪里——而不是相信你的记忆，而这恰恰是人类最不擅长的。

引擎是一个闭环：解决 → 记下你学到的东西 → 下次检索它 → 完善它。

两个部分让这个循环真实且值得理解：

它会自己写技能。 当一个任务完成时，智能体会自问这条路径是否值得保存——而且它只保存那些需要花费代价去搞清楚的东西：花了很多步骤的任务、必须从中恢复的bug、你给它的纠正、那个非显而易见的有效技巧。然后它写入一个可复用的技能文件。没有人类写它。智能体自己写的，这样它就不必再为同一件事费劲。

---
name: deploy-staging
triggers: ["deploy to staging"]
uses: 7
---
## 步骤
1. 构建web应用。如果失败，读取错误，修复导入，重试一次。
2. 运行测试。只在绿灯时继续。
3. 部署到staging。将URL发布到#eng频道。

它的记忆是被策展的，不是被囤积的。 始终加载的记忆有一个硬性的容量上限——几千个字符，不是无限。这个限制就是特性。它迫使智能体保留重要的，丢弃不重要的，就像一个好笔记本胜过一堆收据。而且它按需搜索过去，而不是把整个历史拖入每一次对话。

解决、记录、检索、完善。这是一个能学习的东西，由普通文件和数据库构建，不做权重调整。它学习的方式就像一个敏锐的人带着一个优秀笔记本学习的方式。

Hermes 对“什么是个人智能体？“的回答是：一个会复合增长的私人智能体。它向内扩展。

所以：OpenClaw 是广度和编排。Hermes 是深度和记忆。如果你想你的智能体无处不在，并带有一个现成技能的市场，选 OpenClaw。如果你想一个每周都变得更敏锐、且从第一次提交起就精心构建的私人智能体，选 Hermes。并且要知道它们正在向彼此冲刺——OpenClaw 在添加记忆，Hermes 在添加覆盖范围。赢家很可能是那个融合了两者的人。

每个人都搞错的部分：循环不是答案

现在工程领域最喜欢的短语是 循环工程。Boris Cherny（构建了 Claude Code 的人）、Steinberger，基本上每个严肃工程师都在说。想法是：建立一个循环，一个智能体写代码，另一个预览，另一个检查，然后它旋转——写、测、修、重复——直到每个框都变绿。

这很强大。但它也是人们失去焦点的地方。

有一件事没有人说得足够清楚：让代码没有bug是第二个问题。第一个问题是建造值得发布的东西。一个出色的特性。而这种口味、方向、知道什么值得构建——不在循环里。它在你自己身上。

让一个智能体完全无监督地迭代，看看会发生什么。它会收敛。它写代码像一个状态机——死板、正确、无生机。它优化你指向的那个东西，但什么也发明不了，因为发明不是优化。AI 确实擅长朝着一个方向推理。但它不擅长选择方向。还没有。

所以关键不是“构建一个更聪明的循环“。关键是留一扇窗——一个智能体停下来问你去哪里的点，然后你伸手进去引导。完全自主性适合已知的和无聊的事情。当你想发明某样东西时，人类必须打断循环，给它正确的输入。这不是系统的弱点。这是系统在正常工作。

方向胜过自主性——一个调试故事

让我具体化，因为我经历过。

我当时在追一个bug。我把所有信息都给了智能体——每一个细微差别、每一条日志、我拥有的每一个细节。我告诉它：你是一个取证式找bug智能体。它原地打转。什么都没找到。

所以我只改了一件事。不是信息——是方向。我把智能体重构为按假设推理：形成一个理论，去寻找证据，向每个方向分支，假定什么都没有。同一个模型。同一个bug。同一些日志。

它找到了。修好了。

纯文本
之前："你是一个取证式找bug智能体。这里有细节..."   → 原地打转，没找到bug

之后："你是一个多疑的高级工程师。假设一定有个BUG，
         直到你能证明没有。形成一个假说，搜索
         证据，向每个方向分支。"                          → 找到了

为什么这能奏效？因为这些模型是在开放的互联网上训练的——Reddit、Stack Overflow、无尽的讨论线程，人们在那里争论出答案。你的提示词决定了它从哪些模式中拉取。把它指向错误的框架，它会自信地给出错误形状的答案。把它指向正确的框架，它会拉取好的东西。提示词里的细节不是装饰。它是方向盘。

这就是为什么“只要把它放进循环“会失败。一个没有方向的循环不会更快找到答案——它会更快找到错误的答案。提示工程在智能体时代并没有消亡。它变成了你所做的最具杠杆作用的事情。一句话——“假设一定有个BUG，直到你能证明没有”——可能意味着浪费一个下午和十分钟解决问题之间的区别。

这个教训超越了调试本身。

@rohit4verse: https://x.com/rohit4verse/status/2070861975358525500

个人智能体剖析：解读Hermes、OpenClaw与智能体操作系统时代背后的架构

个人智能体究竟是什么

始于一个不想给自己工具当保姆的人

人们实际怎么用，以及用得有多差

Mac mini 的问题

七部分机器

OpenClaw：那一个负责编排的

Hermes：那一个学会的

每个人都搞错的部分：循环不是答案

方向胜过自主性——一个调试故事

相似文章

@PrajwalTomar_: https://x.com/PrajwalTomar_/status/2064324584254710262

@nateherk: https://x.com/nateherk/status/2053308681299616125

@akshay_pachaar: https://x.com/akshay_pachaar/status/2054564519280804028

@PrajwalTomar_: OpenClaw / Hermes 专业提示：不要只阅读这篇文章。将整篇文章粘贴到你的代理中，然后说：“将其变成…”

@smantena: https://x.com/smantena/status/2052483819270521238

提交意见反馈