@DeRonin_: Andrej Karpathy:"Claude 90% 的错误来自缺失上下文,而非模型能力弱。" 没有 CLA… 时错误率达 41%
摘要
Andrej Karpathy 表示,Claude 90% 的错误源于缺少上下文,而非模型能力薄弱,并给出了一套 12 条规则,在实验中将错误率从 41% 降低到 3%。
查看缓存全文
缓存时间: 2026/05/18 10:30
Andrej Karpathy:“Claude 90% 的错误源于上下文缺失,而非模型本身弱。”
无 CLAUDE.md 时错误率 41%。使用 4 条规则基线时降至 11%。使用下方 12 条规则版本时降至 3%。
以下是高级工程师最终敲定的 12 条规则:
-
先思考再编码:陈述假设,不要猜测。模型无法读取你的心思,别再指望它会这样做。
-
简洁优先:最少代码,不做推测性抽象。一旦你让 Claude 添加“为未来灵活性考虑“,就等于添加了 200 行下个季度就会删除的代码。
-
外科手术式改动:只动必须动的地方。别让它“顺便改进“相邻代码,那正是 PR 失控的原因。
-
目标驱动执行:预先定义成功标准,循环直到验证通过。没有这些标准,Claude 要么无限循环,要么过早停止。
-
仅将模型用于判断型任务:分类、草稿、摘要、提取。不要用于路由、重试、状态码处理、确定性转换。如果代码能回答,就让代码回答。
-
令牌预算不是建议:每任务 4000、每会话 30000。在长时间调试的第 40 条消息时,Claude 会重新建议你在第 5 条消息时已拒绝的修复方案。
-
暴露冲突,不要平均处理:代码库中有两种模式?选一种。Claude 将两者融合,正是错误被两倍吞没的方式。
-
先读再写:读取导出、调用者、共享工具。Claude 很乐意在它从未读过的相同函数旁添加重复函数。
-
测试验证意图,而不仅仅是行为:一个在业务逻辑变化时无法失败的测试就是错误的。Claude 所有 12 个测试都可能通过,而函数却返回常量。
-
每个重要步骤设置检查点:Claude 在第 4 步破碎状态上完成了第 5、6 步。一小时后才有人发现。
-
匹配代码库约定:类组件?不要默默换成 hooks。测试模式假设了 componentDidMount,hooks 破坏了它却没有暴露问题。
-
大声失败:“成功完成“却静默跳过了 14% 的记录,这是最糟糕的错误类型。暴露不确定性,不要隐藏它。
真正有累积效应而不是下一个框架的东西:
- CLAUDE.md 文件作为跨会话的制度记忆
- 评估驱动的变更,而非“感觉“驱动
- 检查点优先于速度
- 显式冲突优先于静默融合
- 纪律优先于框架,始终如此
- 一个仓库、一个规则文件、没有例外
在 AI Twitter 形成舆论共识之前,领先几步。
学习这个。
Ronin (@DeRonin_): 任何使用或学习智能体系统的人都应该读这个。
在开始任何新代理项目之前,我执行的安装顺序:
- 隐私:direnv + 真正的密钥管理器
安装 direnv,然后将其接入团队的密码管理器(通过 op run 的 1Password CLI、doppler、infisical、vault)
相似文章
@PrajwalTomar_: Claude 没有出问题。是你的 CLAUDE.md 有问题。大多数人认为 Claude Code 出错是因为模型不好。错。……
一条推文指出,Claude Code 的糟糕行为源于错误的 CLAUDE.md 配置,而非模型缺陷,并分享了让智能体像资深工程师一样行事的规则。
@DeRonin_: Andrej Karpathy: “你 90% 的 AI 编程账单都花在了不需要发送的上下文上” 以下是资深 A…
这篇文章总结了 Andrej Karpathy 关于通过优化上下文使用、避免为简单任务使用过于强大的模型以及实施高效的路由策略来降低 AI 编程成本的建议。
@PrajwalTomar_: Karpathy抱怨Claude犯错,有人将其归纳为4条规则,迅速成为GitHub历史上增长最快的单文件……
作者更新了一个爆火的GitHub提示模板,该模板曾大幅降低Claude的编码错误率,新增8条规则以解决开发者在用Claude Code时遇到的现代AI代理问题,例如上下文丢失和工作流冲突。
@_avichawla: 更聪明的 Claude 模型消耗的 tokens 更多,而不是更少!而且这不是 3-5% 的微小差异,而是高出 54% 的 token 使用量。…
本文分析了为何像 Claude 这样更智能的 AI Agent 在与 Supabase 等以人类为中心的后端交互时会消耗更多 Token,主要原因在于上下文发现效率低下。文章引入了 InsForge,这是一款专为 Agent 设计的开源后端工具,通过提供结构化的上下文来显著降低 Token 用量和人工干预。
@aakashgupta: 这个人彻底解析了掌握Claude所需的一切:6:07 - 为什么停止使用Chat 9:56 - Cowork vs Code…
一份掌握Claude的全面指南,涵盖从基本使用到高级技能和MCP连接器的主题,并附有时间戳。