@DeRonin_: Andrej Karpathy："Claude 90% 的错误来自缺失上下文，而非模型能力弱。" 没有 CLA… 时错误率达 41%

X AI KOLs Following 2026/05/18 09:07 新闻

claude best-practices prompting context agentic-systems andrej-karpathy rules

摘要

Andrej Karpathy 表示，Claude 90% 的错误源于缺少上下文，而非模型能力薄弱，并给出了一套 12 条规则，在实验中将错误率从 41% 降低到 3%。

Andrej Karpathy："Claude 90% 的错误来自缺失上下文，而非模型能力弱。" 没有 CLAUDE.md 时错误率为 41%。使用 4 条规则基线时降为 11%。使用以下 12 条规则版本时仅为 3% 以下是高级工程师们最终确定的 12 条规则： 1. 先思考再编码：说明假设，不要猜测。模型无法读懂你的心思，别再指望它了 2. 简单至上：最小化代码，不做推测性抽象。一旦让 Claude 添加"为了未来灵活性"，你就多了 200 行下个季度就会删掉的代码 3. 精准修改：只动必须动的部分。别让它"优化"相邻代码，否则 PR 会失控 4. 目标驱动执行：提前定义成功标准，循环直到验证通过。没有标准，Claude 要么无限循环，要么过早停止 5. 仅用模型做判断性工作：分类、起草、总结、提取。不要用于路由、重试、状态码处理、确定性转换。如果代码能回答，就用代码回答 6. Token 预算不是建议：每任务 4000，每会话 30000。在长调试的第 40 条消息时，Claude 会重新建议你在第 5 条消息时已拒绝的修复 7. 暴露冲突，不要折中：代码库中有两种模式？选一种。Claude 将其混合会导致错误被双重掩盖 8. 先读再写：读取导出、调用者、共享工具。Claude 会很乐意在一个从未读过、相近的、完全相同的函数旁边添加重复函数 9. 测试验证意图，而不仅仅是行为：业务逻辑变更时无法失败的测试是错误的。Claude 的所有 12 个测试都可能通过，而函数却返回一个常量 10. 每个重要步骤设置检查点：Claude 在第 4 步的损坏状态上完成了第 5 和第 6 步，没人发现了一个小时 11. 符合代码库惯例：项目使用类组件？不要默默切换到 Hooks。测试模式假设了 componentDidMount，Hooks 打破了它们而没有报错 12. 失败要响亮："成功完成"却悄悄跳过了 14% 的记录，这是最糟糕的一类 bug。暴露不确定性，不要隐藏真正起作用的是以下这些，而非下一个框架： - CLAUDE.md 文件作为跨会话的机构记忆 - 评估驱动的变更，而非感觉驱动 - 检查点优先于速度 - 显式冲突优先于默默混合 - 纪律优先于框架，每次如此 - 一个仓库，一个规则文件，没有例外在 AI 推特圈普遍认同之前，先别人一步掌握这些规则学习此内容

查看原文

查看缓存全文

缓存时间: 2026/05/18 10:30

Andrej Karpathy：“Claude 90% 的错误源于上下文缺失，而非模型本身弱。”

无 CLAUDE.md 时错误率 41%。使用 4 条规则基线时降至 11%。使用下方 12 条规则版本时降至 3%。

以下是高级工程师最终敲定的 12 条规则：

先思考再编码：陈述假设，不要猜测。模型无法读取你的心思，别再指望它会这样做。
简洁优先：最少代码，不做推测性抽象。一旦你让 Claude 添加“为未来灵活性考虑“，就等于添加了 200 行下个季度就会删除的代码。
外科手术式改动：只动必须动的地方。别让它“顺便改进“相邻代码，那正是 PR 失控的原因。
目标驱动执行：预先定义成功标准，循环直到验证通过。没有这些标准，Claude 要么无限循环，要么过早停止。
仅将模型用于判断型任务：分类、草稿、摘要、提取。不要用于路由、重试、状态码处理、确定性转换。如果代码能回答，就让代码回答。
令牌预算不是建议：每任务 4000、每会话 30000。在长时间调试的第 40 条消息时，Claude 会重新建议你在第 5 条消息时已拒绝的修复方案。
暴露冲突，不要平均处理：代码库中有两种模式？选一种。Claude 将两者融合，正是错误被两倍吞没的方式。
先读再写：读取导出、调用者、共享工具。Claude 很乐意在它从未读过的相同函数旁添加重复函数。
测试验证意图，而不仅仅是行为：一个在业务逻辑变化时无法失败的测试就是错误的。Claude 所有 12 个测试都可能通过，而函数却返回常量。
每个重要步骤设置检查点：Claude 在第 4 步破碎状态上完成了第 5、6 步。一小时后才有人发现。
匹配代码库约定：类组件？不要默默换成 hooks。测试模式假设了 componentDidMount，hooks 破坏了它却没有暴露问题。
大声失败：“成功完成“却静默跳过了 14% 的记录，这是最糟糕的错误类型。暴露不确定性，不要隐藏它。

真正有累积效应而不是下一个框架的东西：

CLAUDE.md 文件作为跨会话的制度记忆
评估驱动的变更，而非“感觉“驱动
检查点优先于速度
显式冲突优先于静默融合
纪律优先于框架，始终如此
一个仓库、一个规则文件、没有例外

在 AI Twitter 形成舆论共识之前，领先几步。

学习这个。

Ronin (@DeRonin_): 任何使用或学习智能体系统的人都应该读这个。

在开始任何新代理项目之前，我执行的安装顺序：

隐私：direnv + 真正的密钥管理器

安装 direnv，然后将其接入团队的密码管理器（通过 op run 的 1Password CLI、doppler、infisical、vault）

@DeRonin_: Andrej Karpathy："Claude 90% 的错误来自缺失上下文，而非模型能力弱。" 没有 CLA… 时错误率达 41%

相似文章

@PrajwalTomar_: Claude 没有出问题。是你的 CLAUDE.md 有问题。大多数人认为 Claude Code 出错是因为模型不好。错。……

@DeRonin_: Andrej Karpathy: “你 90% 的 AI 编程账单都花在了不需要发送的上下文上” 以下是资深 A…

@PrajwalTomar_: Karpathy抱怨Claude犯错，有人将其归纳为4条规则，迅速成为GitHub历史上增长最快的单文件……

@_avichawla: 更聪明的 Claude 模型消耗的 tokens 更多，而不是更少！而且这不是 3-5% 的微小差异，而是高出 54% 的 token 使用量。…

@aakashgupta: 这个人彻底解析了掌握Claude所需的一切：6:07 - 为什么停止使用Chat 9:56 - Cowork vs Code…

提交意见反馈