在Karpathy的LLM Wiki上一个月后,瓶颈不是搭建,而是维护
摘要
一位开发者分享了基于Andrej Karpathy的想法构建LLM驱动维基的一个月经验,发现虽然搭建容易,但持续维护——如处理过期源、成本和集成——才是真正的挑战。
我想我是最早看到Andrej Karpathy那条推文并立刻领会其意的人之一。把资料扔进一个文件夹,让AI全部读完并在此基础上构建一个维基,然后直接向维基提问,再也不用翻原始文档。一旦你明白了,就再也无法忽视。过去一个月我一直在实际构建它。以下是我学到的,按学习顺序排列。
第一周:搭建是最容易的部分
一个周末就够搭出基础版本,用Claude和Obsidian组合。我喂了大约80篇文章和PDF,到周日晚上就有了一个能工作的维基,它总结了所有内容,并将相关想法连接起来。真的感觉像魔法。我告诉两个朋友,Karpathy破解了某种根本性的东西。
第二周:初见裂痕
从杂乱来源中提取干净的文本是噩梦。扫描的PDF输出是乱码。有些网站在程序试图读取时无法正常加载。表格变成垃圾。脚注混入正文。每遇到一种新来源,就需要花一整个晚上来折腾。
第三周:真正的问题暴露了
我一次性添加了50篇新文章,发现维基根本不知道它们存在。为了真正将它们纳入,AI必须从头重新阅读和重新组织所有内容,这花了40分钟,并消耗了真金白银的API费用。然后我注意到,有三篇旧摘要引用的文章已经更新了几周。维基还在自信地告诉我一个早已不存在的源版本。这时我才恍然大悟。Karpathy的方法假设你的源是静止的。真正的研究不是这样。文章会更新,帖子会被删除,你也会批量添加新内容。基于快照构建的维基,在你完成构建的那一刻就开始变旧。
我不断遇到的维护问题:
- 过期的摘要。源更新了,你的摘要却悄悄地错了。没有任何提示。无法知道什么变了。即使我知道源被编辑过,也无法判断这次编辑是否重要到需要重新摘要。
- 添加新东西意味着重做一切。没有干净的方法只插入新源而不重建整个维基。
- 删除比更新更糟。移除一个源后,维基仍然像幽灵一样引用它。
- 同一个网站改版后解析方式变了。直到摘要出现错误你才会注意到。
这些都不是关于提示词的问题,也不是关于你用哪个AI模型的问题。全部在于保持底层资料库的新鲜和整洁,而这部分没人谈论。
第四周:放弃并尝试无代码方案
这感觉像失败。我不知道是否只有我这样。以下是我在考虑的一些低代码方案。也许我错过了什么,需要回到起点重新思考。如果是这样,请你在下面给我一些指导吗?相信我,我几乎看了所有教程,也翻遍了所有相关帖,但可能就是我自己的问题。我现在正在寻找Karpathy的LLM维基的无代码解决方案。我考虑的有这些。有人试过并成功建立起流程吗?
- Claude with Notion:这不是真正的无代码,但它是Obsidian的替代方案,我实际上觉得它相当巧妙。我找到了很顺手的MCP,而且我很喜欢我不仅可以做知识管理,还能创建任务和提醒。这并非完全相同的流程,但是一个略微调整的版本,我觉得挺酷的。缺点是Notion处理YouTube视频和PDF不太好。
- Mymind:这个我超级兴奋,但还不太准备使用。网站很美,我在里面感觉很平静,但我不确定这是终身第二大脑还是一个平静的Pinterest知识库。有人用过吗?请告诉我。
- Recall:AI知识库是最接近Karpathy实际描述的方案。看起来你可以添加几乎任何在线内容:YouTube视频、播客、PDF,它会自动读取、总结、标记并连接一切。缺点是基于云端的。
我真正想知道的是:
有没有人构建了自己版本且不会变旧的方案?我搞不定,很希望自己是错的。对于仍在运行Karpathy方案并拥有大量资料的人,你们是如何处理当文章被编辑时摘要过时的问题?我是否错过了一个工具,它把保持源新鲜当作主要任务,而不是事后才考虑的事?
相似文章
@InduTripat82427:卧槽……Andrej Karpathy 抛出“LLM Wiki”概念的一个月前,已经有人把它做出来了。不是纸上谈兵,不是炒作,是真·能跑的系统。
在 Andrej Karpathy 公开“LLM Wiki”想法的一个月前,就有人实现了可运行的系统,解决了 LLM 每次从零开始、没有记忆也无法自我进化的痛点。
@LearnWithBrij:卧槽……Andrej Karpathy 抛出“LLM Wiki”概念的一个月前,已经有人默默做出来了。不是理论,不是炒作,是实打实能跑的系统。
一位独立开发者在 Andrej Karpathy 公开相同想法的几周前,就已悄然上线了一套可工作的“LLM Wiki”系统——为语言模型提供持久记忆。
@Suryanshti777: https://x.com/Suryanshti777/status/2053144730108829706
这篇文章探讨了 Andrej Karpathy 提出的“LLM Wiki”概念,认为这是传统 RAG 的范式转变,主张通过维护一个持久且不断演化的知识基底,可以实现知识的复合式理解,而非无状态的检索。
@akshay_pachaar:Karpathy 维基 2.0:让知识“动”起来
Akshay Pachaar 建议把 Karpathy 的静态维基拓展到动态知识领域,指出 LLM 早已能对注意力机制这类稳定主题进行自动整合与交叉引用。
@Asteri_eth: Karpathy 找到了一种将 token 消耗减少 90% 的方法。问题在于 LLM 反复读取相同的文件...
Karpathy 的 'Wiki Layer' 方法通过让模型清理、结构化并链接数据到本地的 Markdown 知识库,将 LLM token 使用量减少高达 90%,从而消除重复读取原始文件。