@Mnilax:Karpathy 向每一位仍将大语言模型视为玩具的高级工程师投掷了“手榴弹”。他的原话是:专家现在能做的最糟糕的事情就是拒绝使用它们。

X AI KOLs Timeline 新闻

摘要

本文探讨了 Andrej Karpathy 关于如何在承认大语言模型认知缺陷的同时有效利用它们的建议,重点介绍了一个案例研究,其中通过自定义配置(CLAUDE.md)显著降低了错误率。

Karpathy 向每一位仍将大语言模型视为玩具的高级工程师投掷了“手榴弹”。他的原话是:专家现在能做的最糟糕的事情就是拒绝使用它们。大多数专家将其视为威胁,但这其实是建议。他的核心观点是:> “AI 工具有问题”和“正确使用 AI 工具很有用”之间的差距在于职业素养,而非模型能力 > Agent(智能体)存在认知缺陷。它们会以训练数据中未曾预见的方式失败 > 拒绝大语言模型的专家会输给那些学会驾驭它们的专家 > “模型存在如此多的认知缺陷。但你可以绕过它们” 绕过这些缺陷正是 CLAUDE.md 被发明出来的原因。Karpathy 本人制定了 4 条规则。在 30 个代码库中,这些规则将我的 Claude 错误率从 41% 降低到了 11%。这是一个显著的下降。但他的规则制定于“垃圾内容泛滥时代”公开之前。我又补充了 8 条规则,针对今年一月份后浮现的失败模式进行了调整。错误率进一步降至 3%。CLAUDE.md 并不能提高 Claude 的智商,而是降低了它的“垃圾输出底线”。这才是整个游戏的关键。请参阅下方的文章。瓶颈不在模型本身,而在你的配置。
查看原文

相似文章

引用布莱恩·坎特里尔

Simon Willison's Blog

布莱恩·坎特里尔批评LLM缺乏人类懒惰带来的优化约束,认为LLM会不必要地使系统复杂化而非改进,并强调人类时间限制推动了高效抽象的发展。

LLMs 在委托任务中破坏您的文档

arXiv cs.CL

DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。