@walden_yan: 如果你正在构建自己的云代理,比如Devin或Ramp Inspect,这里有关于设置虚拟机的许多精彩细节……
摘要
与Walden Yan (Cognition)和Cole Murray (OpenInspect)深入探讨构建云代理,涵盖虚拟机设置、计算机使用、内存以及异步代理在AI工程领域的兴起。
查看缓存全文
缓存时间: 2026/05/31 06:41
如果你正在构建自己的云端代理(比如 Devin 或 Ramp Inspect),这篇文章提供了大量关于设置虚拟机、计算机使用、内存等方面的绝佳细节。与 OpenInspect 的创建者深入探讨了设置云端代理所涉及的内容,非常有趣。
https://t.co/6VH6wVh4GJ https://t.co/pG9MJWGFbA
异步代理时代 —— Cognition 的 Walden Yan 与 OpenInspect 的 Cole Murray
来源:https://www.latent.space/p/cognition 全新 AIEWF 网站 (https://ai.engineer/wf) 已上线,CFP 提交将在 2 天后截止。本周末我们将举办首届新工程师迎新会,请尽快预订门票,因为它们肯定会售罄。参与 AI 工程调查 (https://notion.qualtrics.com/jfe/form/SV_bP07tSVMXH7ePCS),即可获得价值超过 2000 美元的积分和免费的 AIE WF 门票 (https://ai.engineer/wf)!
代理行业的一个核心矛盾是:一方面,像 Sierra、Decagon、Notion 和 Cursor 这样的十角兽代理实验室正在崛起;另一方面,现在 DIY 代理从未如此简单,因为有大量的代理框架,比如 LangGraph (https://www.latent.space/p/oai-v-langgraph)、Pydantic (https://www.latent.space/p/pydantic)、Flue (https://x.com/FredKSchott/status/2050274923852210397),以及来自 Anthropic (https://www.anthropic.com/engineering/managed-agents)、Gemini (https://blog.google/innovation-and-ai/technology/developers-tools/managed-agents-gemini-api/) 和 Amazon (https://openai.com/index/openai-on-aws/) 的托管代理。从 Shopify (https://x.com/simonw/status/2053529689122328947) 到 Stripe (https://stripe.dev/blog/minions-stripes-one-shot-end-to-end-coding-agents) 再到 Paradigm (https://x.com/matthuang/status/2057500542298136899?s=46) 和 Razorpay (https://x.com/shashank_kr/status/2056246734465253859?s=46),乃至 Cognition 的朋友们——Ramp (https://x.com/zachbruggeman/status/2010728444771074493?s=46)——也与其他伙伴 Modal (https://modal.com/blog/how-ramp-built-a-full-context-background-coding-agent-on-modal) 一起构建了自己的编码代理,这样的浪潮正在涌现。
你可能会认为 Cognition 会感到些许威胁,但他们并没有——即便经历了这一切,他们刚刚宣布的 10 亿美元 D 轮融资 (https://www.latent.space/p/ainews-cognition-raises-1b-in-26b?utm_source=publication-search) 仍然被严重超额认购:
X 头像 @cognition Cognition@cognition 1/ 我们已筹集超过 10 亿美元,估值达 260 亿美元,由 @Lux_Capital、@generalcatalyst 和 @8vc 领投。自今年年初以来,我们的企业使用量增长了 10 倍以上,年化收入达到 4.92 亿美元。两年前,我们推出了 Devin,作为首位 AI 软件工程师。自 2026 年 5 月 27 日下午 3:39 · 733K 次查看 157 条回复·194 次转发·2.37K 点赞 (https://x.com/cognition/status/2059660758531940856)Walden Yan (https://www.linkedin.com/in/waldenyan),“上下文工程” (https://cognition.ai/blog/dont-build-multi-agents) 的提出者,也是 Cognition 的首席产品官兼联合创始人,邀请了 OpenInspect 的 Cole Murray (https://github.com/ColeMurray/background-agents) 来探讨为什么“细节决定 Devin“ (https://swyx.io/cognition)。
完整对话今日已在播客 (https://www.youtube.com/watch?v=0fgJPhYcbVk) 中直播:
回想起来,在 2024 年,异步代理是最具 AGI 信仰的赌注——模型还不够好,无法进行“氛围编码“,人们也不够信任 AI 而让它放手去做,没有人(包括早期的 Cognition)对形态因素有把握。
现在,答案显而易见:
- 第一波 AI 编码工具让开发者变得更快,但仍然深度参与其中。Copilot 和 Cursor 的标签自动补全 (https://cursor.com/help/ai-features/tab) 就是典型例子。然而,工作流仍然高度围绕并受限于开发者的本地工作流:开发者在 IDE 中,观察模型,接受或拒绝更改,一次一个交互地推送代码。
- 第二波是本地代理:Claude Code (https://www.latent.space/p/claude-code)、Windsurf (https://www.latent.space/p/windsurf)、Cursor 的代理面板:先是单个终端,然后越来越多的终端并发运行。
- 当前的异步代理时代指向了一个不同的未来,更加侧重于代理编排,从而驱动端到端的开发。
根据之前的嘉宾 Steve Yegge (https://www.latent.space/p/steve-yegges-vibe-coding-manifesto) 的说法,代理采用有更细粒度的 8 个级别 (https://www.oreilly.com/radar/steve-yegge-wants-you-to-stop-looking-at-your-code/),但我们将其概括为三个。
正如 Cursor 的 Michael Truell 在《AI 软件开发的第三纪元》 (https://cursor.com/blog/third-era) 中所说:
Cursor 的主要目标不再是编写代码。而是帮助开发者构建创建软件的工厂*。这个工厂由作为团队成员的代理群组成:提供初始方向,配备独立工作的工具,并审查他们的工作。*
代理不应仅仅停留在开发者的工作流中。它应该被设置为在后台工作,这样你就可以给它一个任务、一个仓库、一台机器、一个 Shell、一个浏览器、测试、内存和审查循环,让它在别处去完成工作。
在不到一年的时间里,观点已经从避免多代理系统:
X 头像 @walden_yan Walden@walden_yan 我看到很多人在构建代理时犯了同样的错误。因此,我们分享了一些我们使用的原则 cognition.ai 不要构建多代理系统 | Cognition 2025 年 6 月 12 日 下午 8:44 · 256K 次查看 61 条回复·126 次转发·1.08K 点赞 (https://x.com/walden_yan/status/1933264183837282558)转变为建议实际有效的方法:
X 头像 @walden_yan Walden@walden_yan 一年前,我告诉人们不要构建多代理系统,要专注于上下文工程基础。今天,许多性感想法仍然不切实际,但我们发现了一些确实有效的设置。2026 年 4 月 22 日 下午 8:46 · 10.9K 次查看 4 条回复·2 次转发·56 点赞 (https://x.com/walden_yan/status/2047054554433462360)从提出 “上下文工程” 到构建 Devin 的 7 倍 PR 增长以及从 16% 跃升至 80% 的提交占比(在 Cognition 的仓库中),Walden Yan 一直坐在后台代理转变的前排。在本期节目中,Cognition 联合创始人兼 CPO Walden Yan 与 OpenInspect 的创建者 Cole Murray 一起,与 swyx 探讨了为什么每个人都在构建自己的 Devin,2025 年 12 月的模型拐点发生了什么变化,以及为什么 “从规格到拉取请求” 现在正成为一种真实的生产工作流。
我们深入探讨了后台代理的架构:框内 harness 与框外 harness,为什么 Devin 将 “大脑“与机器分离,为什么仓库设置仍然是最困难的问题之一,为什么 Docker 并不总是足够,以及完整的虚拟机、快照、范围隔离的密钥、GitHub 机器人、Slack 集成和基于视频的测试如何协同工作。Walden 和 Cole 还深入探讨了内存、MCP 的限制、多代理编排 (https://cognition.ai/blog/multi-agents-working)、AI 代码审查、SRE 自动分类、产品经理从 Slack 推送代码、Windsurf 2.0、混合前沿/次前沿系统,以及失控的“氛围编码“的真实失败模式:你的代码库退化为你最差工程师的水平。
随着代理在吞噬软件……而软件在吞噬世界…… (https://www.youtube.com/watch?v=zepu8Kk6FBQ),你可以得出未来走向的结论:
-
为什么工程界正在觉醒于后台代理和云端代理
-
使规格到 PR 工作流变得实用的 2025 年 12 月模型拐点
-
Devin 的 7 倍合并 PR 增长以及从 16% 到 80% 的提交占比跃升
-
为什么 Cole 构建了 OpenInspect 作为一个开源的后台代理系统
-
每个席位 20 美元 的代理产品经济学,以及为什么货币化很棘手
-
Cognition 除了 Devin 之外还销售什么:基础设施、上手引导、集成和采用
-
框内 harness 与框外 harness,以及为什么架构很重要
-
为什么 Devin 将大脑与机器分离以保障安全和权限
-
仓库设置、范围隔离的密钥、Docker Compose 以及代理就绪的开发环境
-
为什么当代理需要运行真实应用程序并进行测试时,完整的虚拟机至关重要
-
Android、macOS、Windows、嵌套虚拟化以及特定机器的代理工作
-
为什么测试比 “计算机使用” 困难得多
-
截图、视频验证以及 “我知道它有效” 的合并时刻
-
GitHub UX、Devin Review、AI 审查者以及代理响应 PR 评论
-
为什么仅靠 MCP 不足以实现一流的 Slack 和企业集成
-
内存、知识、技能、Claude.md,以及为什么检索仍未解决
-
Devin 的自动生成记忆以及记忆修剪的挑战
-
始终在线的代理作为问题、工单和产品领域的永久产品经理
-
子代理、元 Devin 管理,以及多代理系统实际增加了什么
-
为什么纯粹的自动合并“氛围编码“在大约两周后就会崩溃
-
AI 代码异味、lint 规则、奖励黑客以及用于代理编写代码的 Semgrep
-
GitAI、内联上下文以及保留代码更改背后的**“原因”**
-
本地测试、模拟服务器、老旧代码库以及为公司准备代理
-
Windsurf 2.0 以及本地前台代理与云端后台代理之间的交接
-
SRE 自动分类、支持工作流以及作为第一响应者的代理
-
产品经理、营销人员以及非工程师从 Slack 创建拉取请求
-
AI 代理预算、每位工程师支出 1000 到 5000 美元,以及混合前沿/次前沿系统
-
自主编码工厂的兴起以及Cognition 正在招聘谁
-
X: https://x.com/walden_yan
-
LinkedIn: https://www.linkedin.com/in/waldenyan/
-
X: https://x.com/_colemurray
-
LinkedIn: https://www.linkedin.com/in/colemurray/
-
OpenInspect / Background Agents: https://github.com/ColeMurray/background-agents
00:00:00 介绍 00:00:43 为什么每个人都在构建自己的 Devin 00:01:57 Devin 2025 年的增长:7 倍 PR 增长和 80% 的提交占比 00:03:49 OpenInspect 与开源后台代理的兴起 00:07:59 Cognition 除了 Devin 之外还销售什么 00:09:56 后台代理架构:框内 harness 与框外 harness 00:12:08 将大脑与机器分离 00:14:07 仓库设置、密钥、Docker 和完整的虚拟机 00:19:13 为什么测试比计算机使用更难 00:22:40 视频验证与“我知道它有效”的合并时刻 00:23:19 GitHub UX、Devin Review 和 AI 代码审查 00:25:42 MCP、Slack 和企业代理集成 00:28:59 内存、知识和始终在线的代理 00:36:16 子代理、多代理编排和元 Devin 00:43:55 氛围编码、自动合并与代码库退化 00:48:38 代理基础设施、VPC、云提供商和快速虚拟机恢复 00:52:25 AI 代码异味、奖励黑客和代码审查系统 00:56:10 让代码库为代理做好准备 00:58:30 Windsurf 2.0 和本地到云端代理交接 01:01:15 SRE 自动分类、产品经理推送代码和代理用例 01:04:32 代理预算、混合模型和自主编码工厂 01:06:51 Cognition 招聘与 OpenInspect 咨询 01:07:45 结尾
Swyx [00:00:00]: 好的,我们请来了 Cognition 的联合创始人兼 CPO Walden Yan。
Walden [00:00:08]: 很高兴来到这里。
Swyx [00:00:09]: 这是一个很酷的头衔。也是“上下文工程”的提出者。
Walden [00:00:15]: 尽管我认为之前已经有很多人以各种方式使用过这些术语,但我确实发现,无论是在内部还是外部,人们都很享受从提示工程或模型包装升级到一种可能更有思想的构建代理方式。
Swyx [00:00:33]: 对于那些还没了解过的人,我屏幕上正在展示“不要构建多代理系统”那篇文章,你应该去读一下,我们后面可能会提到。还有 Cole Murray,他创建了 OpenInspect。
Cole [00:00:43]: 很高兴来到这里。
Swyx [00:00:43]: 那么,我们来谈谈吧。每个人都在构建自己的 Devin。这是怎么回事?
Cole [00:00:51]: 我认为工程界正在觉醒于后台代理、云端代理(无论你喜欢怎么称呼)这个概念。我认为我们在 2025 年 12 月左右看到了一个转变,当时模型——Opus 4.5 和 GPT 5.2——达到了一个能力水平,我们不再需要手把手地引导模型,而是能够或多或少地自主驱动模型。我的意思是,我们几乎可以从一个规格说明直接完成一个拉取请求,前提是规格足够好,而且过程几乎没有摩擦。仅此一种范式,我认为就极大地改变了我们与代理交互的方式,并开启了一个后台代理变得更加实用的世界。
Swyx [00:01:41]: 对 Cole 来说,每个人都在 12 月经历了这种变化,但我觉得这只是一个持续加速的坡道,对吧?有一个时刻,我想是 Sonnet 3.7,你们好像花了一晚上重写了 Devin。所以,描述一下 2025 年,或者从你这边看是什么感觉。
Walden [00:02:01]: 回想起来,我们一直认为它在加速,但即使到现在,在过去的三四个月里,它加速得更快了。所以,谈论 Sonnet 3.7 有多大的飞跃,其实有点好笑。老实说,其中很大一部分是去掉了 Devin 中那些随着智能的跃升而不再需要的部分。但我也认为,最近很多飞跃,特别是,你看着像 Opus 和最新的 GPT 模型,它们达到了一个自主性水平,人们真正发现他们确实可以放手了。那些曾经争论“哦,我需要在我的 IDE 里与模型深入纠缠吗?还是我可以完全把它移到云端?”的人,现在开始更认真地讨论这个问题了。我们在所有的增长图表中都看到了这一点。在内部,有一个有趣的图表,我们的 PR 使用量,合并的 PR,增长了 7 倍,我忘了是从什么时候开始算的。
Swyx [00:02:57]: 我想 Dev 可能发过推。是的。
Walden [00:03:01]: 它增长了大约 7 倍,在过去的,我想是两个月、三个月左右。然后你看我们的工程人员规模增长,也就增加了 10% 左右。
Swyx [00:03:11]: 我们之前还害怕发布这个数据。所以,这是 Devin 在所有 Devin 仓库上的提交占比,一月份是 16%,现在三月份是 80%。
Walden [00:03:25]: 现在这是一个巨大的转变。所以,很多人现在都在考虑购买 Devin,但也许也在尝试构建自己的 Devin,这是有道理的。构建 Devin 有很多乐趣,所以我能理解为什么其他人也想构建自己的云端代理。Matt,好吧,也许听听你最初是什么启发你尝试构建 OpenInspect 的,这挺好。
Cole [00:03:49]: OpenInspect 的出现,主要是通过我的客户观察他们如何使用像 Claude、OpenAI 当时的 Codex 等工具,并看到他们遇到的一些摩擦。主要是 Claude 通过 Slack 使用,他们遇到的一个大问题是,启动的会话是特定于通过 Slack 调用它的人的。因此,如果一个产品经理调用了会话,然后他想把上下文传递给工程人员,但工程人员看不到那个会话。这本身就是一个障碍,因为产品经理会说:“嘿,工程人员,你能不能介入一下?”但除非他们复制粘贴输出,或者依靠返回的单次响应,否则没什么可供介入的。看到了这些
相似文章
构建云代理的经验教训(12分钟阅读)
Cursor分享了构建云代理的关键经验,强调提供完整的开发环境对代理输出质量至关重要,并且长时间运行的代理需要持久执行和企业级基础设施。
@hwchase17: https://x.com/hwchase17/status/2053157547985834227
文章概述了一个系统的“智能体开发生命周期”(构建、测试、部署、监控),以有效创建和管理 AI 智能体,重点介绍了 LangChain、LangGraph 和 CrewAI 等关键框架。
@mronge: https://x.com/mronge/status/2052846432969720202
一份在 Mac mini 上搭建全天候 AI 代理的实用指南,涵盖硬件选型、云端与本地 AI 模型的权衡取舍,以及用于自动化销售报告、社交媒体建议等任务的代理系统选择。
如何让代理运行数小时,以及哪些架构真正对代理友好?#深度探讨 #氛围程序员问题
作者探讨了AI编码代理的两个关键挑战:确保长时间自主执行(数小时)以及为本地应用设计对代理友好的架构。他们提出在规划和执行之前,增加一个显式的知识组织阶段来管理混乱的上下文。
我厌倦了AI开发工具把一切都困在云端,所以我构建了...
AgentBuddy 是一个本地优先、开源的 AI 工作流沙盒,支持持久化代理线程、实时执行追踪和事件驱动工作流,集成了 Claude Code,旨在让 AI 开发保持本地化和透明化。