首页
/
新闻
/
安德烈·卡帕斯:从Vibe Coding到Agentic Engineering
安德烈·卡帕斯:从Vibe Coding到Agentic Engineering
摘要
安德烈·卡帕斯讨论了2024年12月LLM达到新可靠性水平的转变,提出了'vibe coding'用于提升下限,'agentic engineering'用于提升上限,并认为可验证性是AI参差不齐能力的关键。
暂无内容
查看缓存全文
缓存时间:
2026/05/21 15:43
**TL;DR:** Andrej Karpathy 讨论了 2024 年 12 月 LLM 达到全新可靠性水平的关键转变,提出了“氛围编码”(vibe coding)来指代降低门槛,以及“代理式工程”(agentic engineering)来指代提升上限。他认为可验证性是理解 AI“锯齿状”能力的关键,而人类的品味、判断力和理解力仍不可替代。
## 十二月转折:从氛围编码到代理式工程
Andrej Karpathy 首先回顾了去年十二月他与 AI 编码工具的关系发生根本性改变的那一刻。他使用 AlphaCode 等代理式工具大约一年——能处理大段代码,但常常需要修正。然后在十二月,休假期间他注意到最新模型“直接就能生成不错的结果。于是我不断提出更多要求,它也一直表现良好。我甚至记不清上次手动纠正是什么时候了。”这种信任让他直接进入了后来被他称为“氛围编码”的状态。
他强调这并非渐进式改进,而是“极其突然的转变”。许多人仍认为 AI 只是一年前 ChatGPT 那样的助手,但自十二月起,“情况已发生根本变化,尤其是那些真正开始奏效的代理式连贯工作流。”结果是他的个人项目文件夹变得“极其满”,而且他“一直在编码”。
## 软件 3.0:新的计算范式
Karpathy 重新阐述了他的架构:软件 1.0 是编写显式规则,软件 2.0 是通过创建数据集和训练神经网络来编程。如今软件 3.0 则截然不同——“编程变成了提示,而上下文窗口是你对作为解释器的 LLM 施加影响的杠杆。”LLM 是一种可编程的计算机,它解释上下文并在数字信息空间中执行计算。
### OpenCL 安装示例
当你想安装 OpenCL 时,传统做法是编写一个 shell 脚本——但脚本会因需适配多种平台而变得臃肿。Karpathy 指出,现在的正确做法是给代理一段文本:一个复制粘贴的提示,指示它安装 OpenCL。代理会利用自身智能查看你的环境,在循环中调试并解决问题。“现在要复制粘贴给代理的文本片段是什么?这就是当前的编程范式。”
### MenuGen:一个引人注目的演示
Karpathy 构建了 **MenuGen**,一个能拍摄餐厅菜单并生成每道菜图片的应用。他用传统方式编码:上传照片、OCR、图像生成器、在 Vercel 上渲染。然后他看到了软件 3.0 版本:“直接拍照,交给 Gemini,说‘用 Nano Banana 把菜品叠加到菜单上’。”Nano Banana 直接返回了一张像素中已渲染好菜品的图像。“这让我震惊,因为实际上我所有的 MenuGen 都是多余的——它还是旧范式。那个应用本不该存在。”神经网络完成了所有工作,根本不需要应用层。
他警告人们仍习惯于加速现有工作流程。“实际上,现在出现的是全新的事物——前所未有、无法实现的新机会。我几乎觉得这更令人兴奋。”
## 可验证性与锯齿状智能
Karpathy 引入了**可验证性**的概念:传统计算机能自动化那些可以用代码明确规范的任务;LLM 则能轻松自动化那些可以验证的任务。前沿实验室在大型强化学习环境中训练模型,给予验证奖励。于是模型在数学和代码等可验证领域的能力达到峰值,而在其他领域停滞不前——形成了“锯齿状”智能。
### 为什么模型是锯齿状的?
他给出了两个原因:(1)实验室专注于经济价值高的领域(代码、数学),因此在这些领域创建了 RL 环境;(2)数据分布中有什么也很重要。例如:国际象棋从 GPT-3.5 到 GPT-4 有很大提升,这不仅仅是因为规模扩大,还因为 OpenAI 有人向预训练数据中加入了大量国际象棋数据。
经典的“strawberry 中有多少个字母?”问题正在被修复,但新的测试是:“我想去 50 米外的洗车店——应该开车还是步行?”最先进的模型会回答步行。“一个能重构 10 万行代码库或发现零日漏洞的模型,怎么可能告诉我走路去洗车店?这太疯狂了。”这种锯齿性意味着你必须有意识地去使用这些工具:“你需要保持一定的参与,关注它们在做什么。”
### 什么能被自动化?
他指出几乎任何事情都能在一定程度上变得可验证——甚至写作也可以使用一组 LLM 评委。但有些领域比其他领域更容易。对于创始人来说:如果你处于一个可验证的环境中,能够创建 RL 环境,那么你可以自己做微调并拉动杠杆。他暗示有些有价值的 RL 环境尚未进入实验室的关注范围,但拒绝直接点名。
## 代理式工程 vs. 氛围编码
Karpathy 明确区分了两者:
- **氛围编码**是关于提升下限——让任何人都能用 AI 构建软件。
- **代理式工程**是关于保持专业软件的质量标准。“你不能因为氛围编码就引入安全漏洞。你仍然有责任。”正确地做这件事是“一门工程学科”——协调那些易错、随机但又强大的代理,在加快速度的同时不牺牲质量。
他认为上限非常高:“人们过去常谈 10 倍工程师。我认为这种放大效应要大得多。10 倍不是你能获得的速度提升。非常擅长这件事的人,提升远不止 10 倍。”
当被问到什么让一个人成为 AI 原生编码者而非平庸者时,Karpathy 指出要投入配置你的工作环境,利用所有可用功能——就像以前投入配置 Vim 或 VS Code 一样。招聘代理式工程师也应该改变:不要出拼图题,而是给一个大项目,比如“为一个代理写一个 Twitter 克隆,确保安全,然后让其他代理尝试攻破它。看看他们能否攻破。”
## 人类技能为何重要?
目前,代理是“目录内部实体”——它们缺乏品味、判断力和监督。Karpathy 从 MenuGen 中举了一个具体例子:在购买积分时,代理使用了 Stripe 和 Google 中的邮箱地址来关联资金,但两个邮箱都可以是任意地址。“为什么用邮箱地址来交叉关联资金?这是很奇怪的做法。人类必须负责规格和计划。”他甚至说自己不喜欢“计划模式”——你应该设计详细的规格(文档),然后让代理在底层编写。
他承认自己已经记不住 API 细节,比如 `keepdim` 还是 `keepdims`、`axis` 还是 `dim`——“实习生会处理这些。”但你仍然需要理解基本概念(例如张量中的视图 vs. 存储)以避免低效。“你负责品味、工程、设计,以及确保一切合理。”
这种情况会改变吗?他希望如此——他曾尝试让 LLM 进一步简化他的 `microGPT` 项目,但“它就是做不到。感觉你被困在 RL 电路之外。就像拔牙一样。”没有根本性的障碍;只是实验室还没有做到而已。
## 未来:代理原生基础设施
Karpathy 设想一个一切优先为代理构建的世界。他感叹大多数文档是为人类编写的——“为什么人们还在告诉我该做什么?我不想做任何事。我应该复制粘贴给代理的内容是什么?”他梦想一个代理原生环境:将工作负载分解为世界上的传感器和执行器,首先为代理描述一切,并使用 LLM 可读的数据结构。
他提到自己部署 MenuGen 时的痛点——不是代码,而是配置 DNS、Vercel 等。“我希望 MenuGen 可以通过只给 LLM 一个提示就能部署,而我完全不需要触碰任何东西。这将是检验基础设施是否变得更代理原生的一项好测试。”
最终,我们正走向一个人们和组织都拥有代理表征的世界。“我会让我的代理和你的代理沟通,商讨我们会议的细节。”
## 教育与理解
当被问到在智能变得廉价时,还有什么值得深入学习时,Karpathy 回忆起一条让他震撼的推文:“你可以外包你的思考,但你不能外包你的理解。”他仍然觉得自己是瓶颈——信息必须进入他的大脑,才能指导代理、知道为什么事情值得做、拥有良好的品味。“LLM 显然不擅长理解。你仍然对此负有独特责任。”
他对那些能增强理解的工具感到兴奋——比如从文章中构建百科、提问、在固定数据上使用合成数据生成。“这些是增强理解的工具。这仍然是一个瓶颈,因为你不能成为一个好的导演,如果……LLM 并不擅长理解。”他最后带有讽刺地希望:“我很期待几年后再回到这里,看看我们是否已被完全自动化出循环,而它们也真正开始处理理解了。”
*来源:Andrej Karpathy:从氛围编码到代理式工程 – YouTube (https://www.youtube.com/watch?v=96jN2OCOfLs)*
相似文章
Simon Willison's Blog
# 氛围编码与智能工程正变得比我预想中更接近
来源:[https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/](https://simonwillison.net/2026/May/6/vibe-coding-and-agentic-engineering/)
2026年5月6日
我最近与 Joseph Ruscio 在 Heavybit 的 High Leverage 播客中讨论了 AI 编程工具:
[Ep. #9, 与 Simon Willison 探讨 AI 编程范式转变](https://www.heavybit.com/library/podcasts/high-leverage/ep-9-the-ai-coding-paradigm-shift-with-simon
X AI KOLs
安德烈·卡帕西在红杉资本Ascent 2026上的谈话摘要,重点介绍了三个主题:LLMs在速度提升之外开拓的新领域(例如原生图像处理、.md脚本、非结构化知识库)、模型能力'参差不齐'背后的经济学,以及智能体原生经济的崛起。
Reddit r/AI_Agents
来自数据库、iOS、前端、数据工程和后端领域的工程师讨论了AI代码生成如何将难点转移到验证和集成上,需要人类对细微风险和架构适配性做出判断。
X AI KOLs Timeline
Andrej Karpathy 强调了‘智能体工程师’的崛起,指出得益于语境工程、工具路由以及编排器-子代理工作流这一新栈,他们的生产力可达传统10倍速工程师的100倍。
Reddit r/singularity
科学家们正采用'氛围编码',这是一种对话式方法,利用LLM等AI工具生成用于数据可视化和分析的代码,从而加速研究,但需谨慎使用。