@garrytan: https://x.com/garrytan/status/2053127519872614419
摘要
Garry Tan 描述了使用一种名为“Book Mirror”的个人 AI Agent 系统,通过“元元提示”(Meta-Meta-Prompting)技术,将阅读内容与他的生活情境深度融合。他分享了关于构建真正的 AI 系统的见解:应将其视为操作系统,而不仅仅是聊天界面。
查看缓存全文
缓存时间: 2026/05/09 16:09
Meta-Meta-Prompting:让 AI 智能体真正工作的秘诀
人们不断问我,为什么我每晚都要编码到凌晨两点。我有一份全职工作,而且责任重大——作为 Y Combinator (YC) 的 CEO,我们每年帮助数以千计的创业者将梦想变为现实,打造拥有真实收入且快速增长的初创公司。
在过去 5 个月里,AI 让我重新成为了一名“构建者”。去年年底,工具已经足够成熟,促使我回归构建。这次不是玩具项目,而是能够产生复利效应的真实系统。我想通过具体例子向你展示,当你不再把 AI 仅仅视为一个聊天窗口,而是将其视为一个操作系统时,个人 AI 究竟是什么样的。我将这些经验以开源项目和类似本文的文章形式分享出来,因为我希望你和我一样加速前行。
这是系列文章的一部分:《Fat Skills, Fat Code, Thin Harness》(肥技能、肥代码、瘦 harness)介绍了核心架构;《Resolvers》(解析器)涵盖了智能的路由表;《LOC Controversy》(代码行数争议)探讨了每位技术人员如何实现自身 100x 到 1000x 的放大;《Naked models are stupider》(裸模型更笨)论证了模型只是引擎,而非整车;而《Skillify manifesto》(技能化宣言)则解释了为什么 LangChain 融资 1.6 亿美元,却只给了你哑铃和深蹲架而没有健身计划,随后才给了你真正需要的健身计划。
那本“读”回我的书
上个月,我在读赤琼法伯(Pema Chödrön)的《当一切分崩离析》(When Things Fall Apart)。这本书有 162 页,22 个章节,讲述了佛教应对苦难、无根基感和放下的方法。一位朋友在我艰难时期推荐了这本书。
我要求我的 AI 做一个**“书籍镜像”(book mirror)**。
具体而言:系统提取了书中的全部 22 个章节,然后为每个章节运行一个子智能体,同时完成两件事:总结作者的观点,并将每个观点映射到我的真实生活中。不是那种通用的“这适用于领导者”的废话,而是具体的映射。它了解我的家庭背景(移民父母,父亲来自香港和新加坡,母亲来自缅甸)。它了解我的职业背景(运营 YC,构建开源工具,指导数千名创始人)。它知道我读过什么,我在凌晨两点在想什么,以及我和我的治疗师正在处理哪些问题。
输出结果是一个 30,000 字的“大脑页面”(brain page)。每个章节呈现为两列:赤琼说了什么,以及它如何映射到我实际正在经历的事情。关于“无根基感”的章节关联到我上周与一位创始人进行的特定对话。关于“恐惧”的章节映射到我治疗师识别出的模式。关于“放下”的章节引用了我深夜写下的一段文字,那是关于我今年发现的创作自由。
整个过程大约花了 40 分钟。一位收费 300 美元/小时的治疗师读完这本书并将其应用于我的生活,40 小时内也无法完成,因为他们没有加载并交叉引用我全部的职业背景图谱、阅读历史、会议笔记和与创始人的关系。
我现在已经用这种方式处理了 20 多本书:《Amplified》(Dion Lim)、《伯特兰·罗素自传》、《设计你的生活》、《天才儿童的心理戏剧》、《有限与无限的游戏》、《来自海洋的礼物》(Lindbergh)、《悉达多》(黑塞)、《荒原狼》(黑塞)、《科学工程的艺术》(Hamming)、《梦幻机器》、《关于不知自己是谁的禁忌之书》(Alan Watts)、《你在乎别人怎么想吗》(费曼)、《当一切分崩离析》(赤琼)、《万物简史》(Ken Wilber)等等。每一个都变得更加丰富,因为“大脑”本身也在变得丰富。第二次镜像知道第一次的内容。第二十次镜像知道之前十九次的所有内容。
“书籍镜像”如何通过迭代变得更好
我做的第一个书籍镜像非常糟糕。版本 1 在关于我家庭的事实上有三处错误。它说我的父母离婚了,但他们并没有。它说我在中国香港长大,而我出生在加拿大。这些基本错误如果分享出去,会严重损害信任。
因此,我添加了一个强制的事实核查步骤。现在,每个镜像在发布前都会针对“大脑”中已知的事实运行跨模态评估。Opus 4.7 1M 捕获精确性错误。GPT-5.5 捕获缺失的上下文。DeepSeek V4-Pro 捕获那些读起来过于通用的内容。
然后,我升级到了使用 GBrain 工具进行的深度检索。原始版本擅长综合,但在具体性方面较弱。版本 3 执行每个部分的脑部搜索。右栏的每个条目都引用了实际的“大脑页面”。当书中谈到如何处理艰难对话时,它不仅仅综合一般原则。它会从我的实际会议笔记中抽取内容,涉及那些正在与联合创始人进行艰难对话的具体创始人。或者我在周四和哥哥 James 闲逛时想到的那个主意。或者我 19 岁时与大学室友进行的即时消息聊天。这简直令人不可思议。
这就是**“技能化”(skillification,在 GBrain 中使用 /skillify)**在实践中意味着什么。我采取了第一次手动尝试,提取了可重复的模式,编写了一个带有触发器和边缘情况的经过测试的技能文件,并且每一次修复都在未来所有的书籍镜像中产生了复利效应。
构建技能的技能
事情变得递归起来,我认为这也是最大的洞察所在。
运行我生活的系统并非作为一个整体存在。它是由技能组装而成的。而这些技能本身也是由一个技能创建的。
Skillify 是一种元技能(meta-skill),用于创建新技能。当我遇到一个我将要重复的工作流时,我会说“将这个技能化”,它就会检查刚才发生的一切,提取可重复的模式,编写一个带有触发器和边缘情况的经过测试的技能文件,并将其注册到解析器中。书籍镜像管道是在我第一次手动操作时就被技能化的。会议准备工作流是在我注意到我在每次通话前都在做同样的步骤后被技能化的。
技能可以组合。书籍镜像调用 brain-ops 进行存储,调用 enrich 进行上下文丰富,调用 cross-modal-eval 进行质量控制,并调用 pdf-generation 进行输出。每个技能专注于一件事。它们链接在一起以创建复杂的工作流。当我改进一个技能时,使用它的所有工作流都会自动变得更好。不再需要“忘记在提示词中提到这个边缘情况”。技能会记住。
自我准备的会议
Demis Hassabis 来到 YC 进行炉边谈话。Sebastian Mallaby 关于他的传记刚刚出版。
我要求系统为我做准备。
在两分钟之内,它提取了:Demis 的完整大脑页面(这是几个月来从文章、播客转录和我的笔记中积累下来的)。他关于 AGI 时间表的公开信念(“50% 依赖缩放,50% 依赖创新”,认为 AGI 还有 5-10 年)。Mallaby 传记的亮点。他声明的研究重点(持续学习、世界模型、长期记忆)。与我公开谈论 AI 的观点的交叉引用。三个演示脚本,用于在对话中展示大脑的多跳推理能力。以及一组基于我们世界观重叠和分歧之处的对话钩子。
这不仅仅是一次更好的 Google 搜索。这是一种利用了我关于 Demis 的积累上下文、我自己的立场以及对话战略目标的准备。系统准备的不仅仅是事实,还有角度。
10 万页“大脑”是什么样子的
我维护着一个包含约 10 万页的结构化知识库。我遇到的每个人都有一个页面,包含时间线、状态部分(当前真实情况)、未决线程和评分。每次会议都有转录记录、结构化摘要和我称之为“实体传播”的东西:每次会议后,系统会遍历提到的每个人和公司,并用讨论的内容更新他们的大脑页面。我读的每本书都有逐章镜像。我参与的每篇文章、播客和视频都被摄取、标记和交叉引用。
模式很简单。每个页面顶部有编译后的真相(当前最佳理解),下面有仅追加的时间线(按时间顺序排列的事件),以及用于源材料的原始数据侧车。把它想象成一个个人维基百科,每个页面都由一个参加会议、阅读邮件、观看讲座并摄取 PDF 的 AI 不断更新。
以下是这种复利效应的一个例子。我在办公时间会见一位创始人。系统创建或更新他们的人物页面、公司页面,交叉引用会议笔记,检查我之前是否见过他们(并展示上次讨论的内容),检查他们的申请数据,提取他们最新的指标,并识别我的任何投资组合公司或联系人是否与其问题相关。当我下次与他们见面时,系统已经准备好了完整的上下文包。
这就是拥有文件柜和拥有神经系统之间的区别。文件柜存储东西。神经系统连接它们,标记变化的内容,并展示当前相关的内容。
架构
它是如何工作的。我认为这是构建个人 AI 的正确方式,我将整个系统开源,以便你自己构建。
Harness 是瘦的。 OpenClaw 是运行时。它接收我的消息,确定适用哪个技能,并进行调度。只有几千行路由逻辑。它不了解书籍、会议或创始人。它只是路由。
技能是肥的。 现在有超过 100 个,每个都是一个自包含的 markdown 文件,包含针对特定任务的详细指令。你已经在上面看到了书籍镜像和会议准备。以下是随 GBrain 提供的更多技能:
-
meeting-ingestion:每次会议后,它提取转录记录,创建结构化摘要,然后遍历提到的每个人和公司,并用讨论的内容更新他们的大脑页面。会议页面不是最终产品。真正价值在于实体传播回每个人和公司页面。
-
enrich:给它一个人的名字。它从五个不同来源提取数据,将所有内容合并为一个单一的大脑页面,包含职业弧线、联系信息、会议历史和关系上下文。每个主张都有引用的来源。
-
media-ingest:处理视频、音频、PDF、截图、GitHub 仓库。转录、提取实体、归档到正确的大脑位置。我经常用这个处理 YouTube 视频、播客和语音备忘录。
-
perplexity-research:大脑增强的网络研究。通过 Perplexity 搜索网络,但在综合之前,检查大脑已经知道什么,以便告诉你什么是真正新的,什么是你已经捕获的。
我还有数十个为我自己的工作构建的技能,我可能会开源:email-triage、investor-update-ingest(检测我电子邮件中的投资组合更新并将指标提取到公司页面)、calendar-check(用于冲突检测和旅行不可能性检测),以及一个我用于公民工作的完整新闻研究堆栈。每个技能编码的操作知识,新的人类助手需要数月才能学会。当人们问我是如何“提示”我的 AI 时,答案是:我不提示。技能就是提示。
数据是肥的。 大脑仓库中有 10 万页结构化知识。我参与的每个人、公司、会议、书籍、文章和想法,全部链接,全部可搜索,每天都在增长。
代码是肥的。 喂养它的代码(用于转录、OCR、社交媒体归档、日历同步、API 集成的脚本)也很重要,但复利价值存在于数据中。我每天运行超过 100 个 cron 作业,检查所有事情:社交媒体、Slack、电子邮件、我关注的一切,我的 OpenClaw/Hermes 智能体也为我查看。
模型是可互换的。 我运行 Opus 4.7 1M 进行精确处理。GPT-5.5 进行回忆和详尽提取。DeepSeek V4-Pro 进行创意工作和第三方视角。Groq 配合 Llama 用于速度。技能决定为哪个任务调用哪个模型。Harness 不在乎。当有人问“哪个 AI 模型最好”时,答案是:错误的问题。模型只是引擎。其余的一切才是车。
凌晨两点的构建者与复利系统
人们问我关于生产率的问题。我不是那样想的。我想的是复利。
我参加的每次会议都为大脑增添内容。我读的每本书都丰富了下一本书的上下文。我构建的每个技能都使下一个工作流更快。我更新的每个人物页面都使下一次会议准备更加敏锐。今天的系统是两个星期前的 10 倍,两个月后它又将翻倍 10 倍。
当我还在凌晨两点编码时(我确实是,经常如此,因为 AI 让我重新获得了构建的乐趣),我不只是在编写软件。我正在为一个每小时都变好的系统添砖加瓦。100 个 cron 作业 24/7 运行。会议摄取自动运行。电子邮件分类每 10 分钟运行一次。知识图谱从每次对话中丰富自己。系统处理每日转录记录并提取我实时错过的模式。
这不是一个写作工具。它不是一个搜索引擎。它不是一个聊天机器人。它是一个真正工作的第二大脑,不仅仅是一个比喻,而是一个拥有 10 万页、100+ 技能、15 个 cron 作业以及过去一年中我参与的每个职业关系、会议、书籍和想法的积累上下文的运行系统。
我将整个堆栈开源了。GStack 是我用来构建它的编码技能框架(87,000+ 星)。当智能体需要编码时,我仍然在 OpenClaw/Hermes 智能体内部将其作为一个技能使用。里面有一个很好的可编程浏览器(有头和无头都有)。GBrain 是知识基础设施。OpenClaw 和 Hermes 智能体是 harness,你应该选择其中一个,但我通常两个都用。数据仓库在 GitHub 上。
论点很简单:未来属于构建复利 AI 系统的个人,而不是使用企业拥有的中心化 AI 工具的个人。 区别在于记日记和拥有神经系统之间的区别。
如何开始
如果你想构建这个:
-
选择一个 harness。 OpenClaw、Hermes 智能体,或者用 Pi 从头构建你自己的。保持它瘦。Harness 只是路由器。将其托管在家里的备用计算机上配合 Tailscale,或者在云中使用 Render 或 Railway。
-
用 GBrain 启动一个大脑。 我从 Karpathy 的 LLM Wiki 中获得灵感,在 OpenClaw 中实现了它,并将其扩展为 GBrain。这是我基准测试过的最好的检索系统(在 LongMemEval 上召回率为 97.6%,在没有 LLM 的检索循环中击败了 MemPalace),它附带 39 个可安装的技能,包括本文描述的所有内容。一条命令安装。一个 git 仓库,其中每个人、会议、文章和想法都有一个页面。
-
做一些有趣的事情。 不要从规划你的技能架构开始。从做一件事开始。写一份报告。研究一个人。下载一季 NBA 比分并为你体育投注构建预测模型。分析你的投资组合。任何你真正关心的事情。用你的智能体做这件事,迭代直到它变好,然后运行 Skillify(前面的元技能)将模式提取为可重用的技能。然后运行 check_resolvable 验证新技能是否已接入解析器。这个循环将一次性工作转化为复利基础设施。
-
继续使用它并查看输出。 技能起初会很平庸。这就是重点。使用它,阅读它产生的内容,当某些内容不对劲时,运行 cross-modal eval:将输出发送给多个模型,让它们在你关心的维度上互相评分。这就是我捕获书籍镜像中事实错误的方式。修复被烘焙进技能中,自此以后的每个镜像都是干净的。六个月后,你将拥有一些聊天机器人无法复制的东西,因为价值不在模型中。它在于你教会系统关于你特定生活、工作和判断的内容。
我用这个系统构建的第一件事很糟糕。第一百件是我可以信任它来处理我的日历、收件箱、会议准备和阅读列表的东西。系统学习了。我学习了。复利曲线是真实的。
肥技能。肥代码。瘦 harness。单独的 LLM 只是引擎。你可以构建你自己的车。
我所有的
相似文章
@garrytan: https://x.com/garrytan/status/2061454423034110372
Garry Tan 认为,开发者在用AI智能体时过度工程化,编写了过多代码;相反,他们应该信任模型,构建基于指令的极简软件,他的开源项目GStack就是例证。
@Av1dlive: Garry Tan (Y-Combinator CEO): “当有人问我如何‘提示’我的 AI 时,答案是:我不提示。技能即提示…"
Garry Tan 主张从手动 AI 提示转向基于技能的自动化,展示了 GBrain 和 GStack 等开源工具,用于永久捕获和复用工作流。
@garrytan: 我之所以发布关于AI agents(fat skill fat code thin harness)以及GStack和GBrain的X文章,是因为……
Garry Tan解释了他发布关于AI agents以及GStack和GBrain等概念的X文章背后的动机,强调了“流程力量”(process power)作为个人护城河的理念。
@rohit4verse: https://x.com/rohit4verse/status/2070861975358525500
本文解析了如Hermes和OpenClaw等个人AI代理的架构,解释了运行在个人硬件上的持久化、始终在线程序如何为用户过滤和总结信息,超越了聊天机器人的范式。
@garrytan:我们正经历人工智能的Apple II时刻,阅读此文的你们将是在未来数十年为数十亿人创造个人AI的人……
Garry Tan将当前AI时代比作Apple II时刻,呼吁读者帮助为数十亿人创造个人AI。Rockport AI的播客摘要强调了这一愿景。