安德烈·卡帕斯：从Vibe Coding到Agentic Engineering

YouTube AI Channels 新闻

andrej-karpathy vibe-coding agentic-engineering ai-coding llm software-paradigm verifiability

摘要

安德烈·卡帕斯讨论了2024年12月LLM达到新可靠性水平的转变，提出了'vibe coding'用于提升下限，'agentic engineering'用于提升上限，并认为可验证性是AI参差不齐能力的关键。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/21 15:43

**TL;DR：** Andrej Karpathy 讨论了 2024 年 12 月 LLM 达到全新可靠性水平的关键转变，提出了“氛围编码”（vibe coding）来指代降低门槛，以及“代理式工程”（agentic engineering）来指代提升上限。他认为可验证性是理解 AI“锯齿状”能力的关键，而人类的品味、判断力和理解力仍不可替代。 ## 十二月转折：从氛围编码到代理式工程 Andrej Karpathy 首先回顾了去年十二月他与 AI 编码工具的关系发生根本性改变的那一刻。他使用 AlphaCode 等代理式工具大约一年——能处理大段代码，但常常需要修正。然后在十二月，休假期间他注意到最新模型“直接就能生成不错的结果。于是我不断提出更多要求，它也一直表现良好。我甚至记不清上次手动纠正是什么时候了。”这种信任让他直接进入了后来被他称为“氛围编码”的状态。他强调这并非渐进式改进，而是“极其突然的转变”。许多人仍认为 AI 只是一年前 ChatGPT 那样的助手，但自十二月起，“情况已发生根本变化，尤其是那些真正开始奏效的代理式连贯工作流。”结果是他的个人项目文件夹变得“极其满”，而且他“一直在编码”。 ## 软件 3.0：新的计算范式 Karpathy 重新阐述了他的架构：软件 1.0 是编写显式规则，软件 2.0 是通过创建数据集和训练神经网络来编程。如今软件 3.0 则截然不同——“编程变成了提示，而上下文窗口是你对作为解释器的 LLM 施加影响的杠杆。”LLM 是一种可编程的计算机，它解释上下文并在数字信息空间中执行计算。 ### OpenCL 安装示例当你想安装 OpenCL 时，传统做法是编写一个 shell 脚本——但脚本会因需适配多种平台而变得臃肿。Karpathy 指出，现在的正确做法是给代理一段文本：一个复制粘贴的提示，指示它安装 OpenCL。代理会利用自身智能查看你的环境，在循环中调试并解决问题。“现在要复制粘贴给代理的文本片段是什么？这就是当前的编程范式。” ### MenuGen：一个引人注目的演示 Karpathy 构建了 **MenuGen**，一个能拍摄餐厅菜单并生成每道菜图片的应用。他用传统方式编码：上传照片、OCR、图像生成器、在 Vercel 上渲染。然后他看到了软件 3.0 版本：“直接拍照，交给 Gemini，说‘用 Nano Banana 把菜品叠加到菜单上’。”Nano Banana 直接返回了一张像素中已渲染好菜品的图像。“这让我震惊，因为实际上我所有的 MenuGen 都是多余的——它还是旧范式。那个应用本不该存在。”神经网络完成了所有工作，根本不需要应用层。他警告人们仍习惯于加速现有工作流程。“实际上，现在出现的是全新的事物——前所未有、无法实现的新机会。我几乎觉得这更令人兴奋。” ## 可验证性与锯齿状智能 Karpathy 引入了**可验证性**的概念：传统计算机能自动化那些可以用代码明确规范的任务；LLM 则能轻松自动化那些可以验证的任务。前沿实验室在大型强化学习环境中训练模型，给予验证奖励。于是模型在数学和代码等可验证领域的能力达到峰值，而在其他领域停滞不前——形成了“锯齿状”智能。 ### 为什么模型是锯齿状的？他给出了两个原因：（1）实验室专注于经济价值高的领域（代码、数学），因此在这些领域创建了 RL 环境；（2）数据分布中有什么也很重要。例如：国际象棋从 GPT-3.5 到 GPT-4 有很大提升，这不仅仅是因为规模扩大，还因为 OpenAI 有人向预训练数据中加入了大量国际象棋数据。经典的“strawberry 中有多少个字母？”问题正在被修复，但新的测试是：“我想去 50 米外的洗车店——应该开车还是步行？”最先进的模型会回答步行。“一个能重构 10 万行代码库或发现零日漏洞的模型，怎么可能告诉我走路去洗车店？这太疯狂了。”这种锯齿性意味着你必须有意识地去使用这些工具：“你需要保持一定的参与，关注它们在做什么。” ### 什么能被自动化？他指出几乎任何事情都能在一定程度上变得可验证——甚至写作也可以使用一组 LLM 评委。但有些领域比其他领域更容易。对于创始人来说：如果你处于一个可验证的环境中，能够创建 RL 环境，那么你可以自己做微调并拉动杠杆。他暗示有些有价值的 RL 环境尚未进入实验室的关注范围，但拒绝直接点名。 ## 代理式工程 vs. 氛围编码 Karpathy 明确区分了两者： - **氛围编码**是关于提升下限——让任何人都能用 AI 构建软件。 - **代理式工程**是关于保持专业软件的质量标准。“你不能因为氛围编码就引入安全漏洞。你仍然有责任。”正确地做这件事是“一门工程学科”——协调那些易错、随机但又强大的代理，在加快速度的同时不牺牲质量。他认为上限非常高：“人们过去常谈 10 倍工程师。我认为这种放大效应要大得多。10 倍不是你能获得的速度提升。非常擅长这件事的人，提升远不止 10 倍。” 当被问到什么让一个人成为 AI 原生编码者而非平庸者时，Karpathy 指出要投入配置你的工作环境，利用所有可用功能——就像以前投入配置 Vim 或 VS Code 一样。招聘代理式工程师也应该改变：不要出拼图题，而是给一个大项目，比如“为一个代理写一个 Twitter 克隆，确保安全，然后让其他代理尝试攻破它。看看他们能否攻破。” ## 人类技能为何重要？目前，代理是“目录内部实体”——它们缺乏品味、判断力和监督。Karpathy 从 MenuGen 中举了一个具体例子：在购买积分时，代理使用了 Stripe 和 Google 中的邮箱地址来关联资金，但两个邮箱都可以是任意地址。“为什么用邮箱地址来交叉关联资金？这是很奇怪的做法。人类必须负责规格和计划。”他甚至说自己不喜欢“计划模式”——你应该设计详细的规格（文档），然后让代理在底层编写。他承认自己已经记不住 API 细节，比如 `keepdim` 还是 `keepdims`、`axis` 还是 `dim`——“实习生会处理这些。”但你仍然需要理解基本概念（例如张量中的视图 vs. 存储）以避免低效。“你负责品味、工程、设计，以及确保一切合理。” 这种情况会改变吗？他希望如此——他曾尝试让 LLM 进一步简化他的 `microGPT` 项目，但“它就是做不到。感觉你被困在 RL 电路之外。就像拔牙一样。”没有根本性的障碍；只是实验室还没有做到而已。 ## 未来：代理原生基础设施 Karpathy 设想一个一切优先为代理构建的世界。他感叹大多数文档是为人类编写的——“为什么人们还在告诉我该做什么？我不想做任何事。我应该复制粘贴给代理的内容是什么？”他梦想一个代理原生环境：将工作负载分解为世界上的传感器和执行器，首先为代理描述一切，并使用 LLM 可读的数据结构。他提到自己部署 MenuGen 时的痛点——不是代码，而是配置 DNS、Vercel 等。“我希望 MenuGen 可以通过只给 LLM 一个提示就能部署，而我完全不需要触碰任何东西。这将是检验基础设施是否变得更代理原生的一项好测试。” 最终，我们正走向一个人们和组织都拥有代理表征的世界。“我会让我的代理和你的代理沟通，商讨我们会议的细节。” ## 教育与理解当被问到在智能变得廉价时，还有什么值得深入学习时，Karpathy 回忆起一条让他震撼的推文：“你可以外包你的思考，但你不能外包你的理解。”他仍然觉得自己是瓶颈——信息必须进入他的大脑，才能指导代理、知道为什么事情值得做、拥有良好的品味。“LLM 显然不擅长理解。你仍然对此负有独特责任。” 他对那些能增强理解的工具感到兴奋——比如从文章中构建百科、提问、在固定数据上使用合成数据生成。“这些是增强理解的工具。这仍然是一个瓶颈，因为你不能成为一个好的导演，如果……LLM 并不擅长理解。”他最后带有讽刺地希望：“我很期待几年后再回到这里，看看我们是否已被完全自动化出循环，而它们也真正开始处理理解了。” *来源：Andrej Karpathy：从氛围编码到代理式工程 – YouTube (https://www.youtube.com/watch?v=96jN2OCOfLs)*

相似文章

氛围编码与智能工程正变得比我预想中更接近

Simon Willison's Blog

# 氛围编码与智能工程正变得比我预想中更接近来源：[https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/](https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/) 2026年5月6日我最近与 Joseph Ruscio 在 Heavybit 的 High Leverage 播客中讨论了 AI 编程工具： [Ep. #9, 与 Simon Willison 探讨 AI 编程范式转变](https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon

安德烈·卡帕斯：从Vibe Coding到Agentic Engineering

相似文章

氛围编码与智能工程正变得比我预想中更接近

@0xMorlex: Andrej Karpathy 解释了将LLM从聊天机器人转变为自主系统的五大转变：00:00 - 记忆将聊天转化为…

@0xMortyx：Andrej Karpathy 在一小时内揭示他实际如何使用 AI：“我只是用简单的话告诉机器我想要什么”……

@rileywestreel: Andrej Karpathy（OpenAI 创始成员）："突然间每个人都是程序员，因为每个人都会说英语。过去……

如何阻止 Vibe Coding？

提交意见反馈