@Mnilax:Karpathy 向每一位仍将大语言模型视为玩具的高级工程师投掷了“手榴弹”。他的原话是:专家现在能做的最糟糕的事情就是拒绝使用它们。
摘要
本文探讨了 Andrej Karpathy 关于如何在承认大语言模型认知缺陷的同时有效利用它们的建议,重点介绍了一个案例研究,其中通过自定义配置(CLAUDE.md)显著降低了错误率。
Karpathy 向每一位仍将大语言模型视为玩具的高级工程师投掷了“手榴弹”。他的原话是:专家现在能做的最糟糕的事情就是拒绝使用它们。大多数专家将其视为威胁,但这其实是建议。他的核心观点是:> “AI 工具有问题”和“正确使用 AI 工具很有用”之间的差距在于职业素养,而非模型能力 > Agent(智能体)存在认知缺陷。它们会以训练数据中未曾预见的方式失败 > 拒绝大语言模型的专家会输给那些学会驾驭它们的专家 > “模型存在如此多的认知缺陷。但你可以绕过它们”
绕过这些缺陷正是 CLAUDE.md 被发明出来的原因。Karpathy 本人制定了 4 条规则。在 30 个代码库中,这些规则将我的 Claude 错误率从 41% 降低到了 11%。这是一个显著的下降。但他的规则制定于“垃圾内容泛滥时代”公开之前。我又补充了 8 条规则,针对今年一月份后浮现的失败模式进行了调整。错误率进一步降至 3%。CLAUDE.md 并不能提高 Claude 的智商,而是降低了它的“垃圾输出底线”。这才是整个游戏的关键。请参阅下方的文章。瓶颈不在模型本身,而在你的配置。
相似文章
@AnatoliKopadze:Karpathy 刚刚表示,不使用 LLM 的人已经输在了起跑线上。他花了 4 分钟解释为什么聪明人仍会落后……
文章探讨了 Andrej Karpathy 的观点,即在人工智能领域,真正的优势在于有效利用而非仅仅拥有访问权限,凸显了技能差距:大多数用户未能将 LLM 的应用超越基础任务。
引用布莱恩·坎特里尔
布莱恩·坎特里尔批评LLM缺乏人类懒惰带来的优化约束,认为LLM会不必要地使系统复杂化而非改进,并强调人类时间限制推动了高效抽象的发展。
@GaryMarcus:我年纪够大,还记得 @GeoffreyHinton 曾因我说 LLM 会复述训练数据而说我愚蠢。他……
Gary Marcus 强调了 DeepMind 的最新研究,证实 LLM 频繁记忆并复述训练数据,以此反驳 Geoffrey Hinton 过去的批评。该帖子凸显了关于 LLM 局限性及其现实能力的持续辩论。
LLMs 在委托任务中破坏您的文档
DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。
@Suryanshti777: https://x.com/Suryanshti777/status/2053144730108829706
这篇文章探讨了 Andrej Karpathy 提出的“LLM Wiki”概念,认为这是传统 RAG 的范式转变,主张通过维护一个持久且不断演化的知识基底,可以实现知识的复合式理解,而非无状态的检索。