@DeRonin_: Andrej Karpathy:"Claude 90% 的错误来自缺失上下文,而非模型能力弱。" 没有 CLA… 时错误率达 41%

X AI KOLs Following 新闻

摘要

Andrej Karpathy 表示,Claude 90% 的错误源于缺少上下文,而非模型能力薄弱,并给出了一套 12 条规则,在实验中将错误率从 41% 降低到 3%。

Andrej Karpathy:"Claude 90% 的错误来自缺失上下文,而非模型能力弱。" 没有 CLAUDE.md 时错误率为 41%。使用 4 条规则基线时降为 11%。使用以下 12 条规则版本时仅为 3% 以下是高级工程师们最终确定的 12 条规则: 1. 先思考再编码:说明假设,不要猜测。模型无法读懂你的心思,别再指望它了 2. 简单至上:最小化代码,不做推测性抽象。一旦让 Claude 添加"为了未来灵活性",你就多了 200 行下个季度就会删掉的代码 3. 精准修改:只动必须动的部分。别让它"优化"相邻代码,否则 PR 会失控 4. 目标驱动执行:提前定义成功标准,循环直到验证通过。没有标准,Claude 要么无限循环,要么过早停止 5. 仅用模型做判断性工作:分类、起草、总结、提取。不要用于路由、重试、状态码处理、确定性转换。如果代码能回答,就用代码回答 6. Token 预算不是建议:每任务 4000,每会话 30000。在长调试的第 40 条消息时,Claude 会重新建议你在第 5 条消息时已拒绝的修复 7. 暴露冲突,不要折中:代码库中有两种模式?选一种。Claude 将其混合会导致错误被双重掩盖 8. 先读再写:读取导出、调用者、共享工具。Claude 会很乐意在一个从未读过、相近的、完全相同的函数旁边添加重复函数 9. 测试验证意图,而不仅仅是行为:业务逻辑变更时无法失败的测试是错误的。Claude 的所有 12 个测试都可能通过,而函数却返回一个常量 10. 每个重要步骤设置检查点:Claude 在第 4 步的损坏状态上完成了第 5 和第 6 步,没人发现了一个小时 11. 符合代码库惯例:项目使用类组件?不要默默切换到 Hooks。测试模式假设了 componentDidMount,Hooks 打破了它们而没有报错 12. 失败要响亮:"成功完成"却悄悄跳过了 14% 的记录,这是最糟糕的一类 bug。暴露不确定性,不要隐藏 真正起作用的是以下这些,而非下一个框架: - CLAUDE.md 文件作为跨会话的机构记忆 - 评估驱动的变更,而非感觉驱动 - 检查点优先于速度 - 显式冲突优先于默默混合 - 纪律优先于框架,每次如此 - 一个仓库,一个规则文件,没有例外 在 AI 推特圈普遍认同之前,先别人一步掌握这些规则 学习此内容
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:30

Andrej Karpathy:“Claude 90% 的错误源于上下文缺失,而非模型本身弱。”

无 CLAUDE.md 时错误率 41%。使用 4 条规则基线时降至 11%。使用下方 12 条规则版本时降至 3%。

以下是高级工程师最终敲定的 12 条规则:

  1. 先思考再编码:陈述假设,不要猜测。模型无法读取你的心思,别再指望它会这样做。

  2. 简洁优先:最少代码,不做推测性抽象。一旦你让 Claude 添加“为未来灵活性考虑“,就等于添加了 200 行下个季度就会删除的代码。

  3. 外科手术式改动:只动必须动的地方。别让它“顺便改进“相邻代码,那正是 PR 失控的原因。

  4. 目标驱动执行:预先定义成功标准,循环直到验证通过。没有这些标准,Claude 要么无限循环,要么过早停止。

  5. 仅将模型用于判断型任务:分类、草稿、摘要、提取。不要用于路由、重试、状态码处理、确定性转换。如果代码能回答,就让代码回答。

  6. 令牌预算不是建议:每任务 4000、每会话 30000。在长时间调试的第 40 条消息时,Claude 会重新建议你在第 5 条消息时已拒绝的修复方案。

  7. 暴露冲突,不要平均处理:代码库中有两种模式?选一种。Claude 将两者融合,正是错误被两倍吞没的方式。

  8. 先读再写:读取导出、调用者、共享工具。Claude 很乐意在它从未读过的相同函数旁添加重复函数。

  9. 测试验证意图,而不仅仅是行为:一个在业务逻辑变化时无法失败的测试就是错误的。Claude 所有 12 个测试都可能通过,而函数却返回常量。

  10. 每个重要步骤设置检查点:Claude 在第 4 步破碎状态上完成了第 5、6 步。一小时后才有人发现。

  11. 匹配代码库约定:类组件?不要默默换成 hooks。测试模式假设了 componentDidMount,hooks 破坏了它却没有暴露问题。

  12. 大声失败:“成功完成“却静默跳过了 14% 的记录,这是最糟糕的错误类型。暴露不确定性,不要隐藏它。

真正有累积效应而不是下一个框架的东西:

  • CLAUDE.md 文件作为跨会话的制度记忆
  • 评估驱动的变更,而非“感觉“驱动
  • 检查点优先于速度
  • 显式冲突优先于静默融合
  • 纪律优先于框架,始终如此
  • 一个仓库、一个规则文件、没有例外

在 AI Twitter 形成舆论共识之前,领先几步。

学习这个。

Ronin (@DeRonin_): 任何使用或学习智能体系统的人都应该读这个。

在开始任何新代理项目之前,我执行的安装顺序:

  1. 隐私:direnv + 真正的密钥管理器

安装 direnv,然后将其接入团队的密码管理器(通过 op run 的 1Password CLI、doppler、infisical、vault)

相似文章

@_avichawla: 更聪明的 Claude 模型消耗的 tokens 更多,而不是更少!而且这不是 3-5% 的微小差异,而是高出 54% 的 token 使用量。…

X AI KOLs Following

本文分析了为何像 Claude 这样更智能的 AI Agent 在与 Supabase 等以人类为中心的后端交互时会消耗更多 Token,主要原因在于上下文发现效率低下。文章引入了 InsForge,这是一款专为 Agent 设计的开源后端工具,通过提供结构化的上下文来显著降低 Token 用量和人工干预。