在Karpathy的LLM Wiki上一个月后,瓶颈不是搭建,而是维护

Reddit r/AI_Agents 新闻

摘要

一位开发者分享了基于Andrej Karpathy的想法构建LLM驱动维基的一个月经验,发现虽然搭建容易,但持续维护——如处理过期源、成本和集成——才是真正的挑战。

我想我是最早看到Andrej Karpathy那条推文并立刻领会其意的人之一。把资料扔进一个文件夹,让AI全部读完并在此基础上构建一个维基,然后直接向维基提问,再也不用翻原始文档。一旦你明白了,就再也无法忽视。过去一个月我一直在实际构建它。以下是我学到的,按学习顺序排列。 第一周:搭建是最容易的部分 一个周末就够搭出基础版本,用Claude和Obsidian组合。我喂了大约80篇文章和PDF,到周日晚上就有了一个能工作的维基,它总结了所有内容,并将相关想法连接起来。真的感觉像魔法。我告诉两个朋友,Karpathy破解了某种根本性的东西。 第二周:初见裂痕 从杂乱来源中提取干净的文本是噩梦。扫描的PDF输出是乱码。有些网站在程序试图读取时无法正常加载。表格变成垃圾。脚注混入正文。每遇到一种新来源,就需要花一整个晚上来折腾。 第三周:真正的问题暴露了 我一次性添加了50篇新文章,发现维基根本不知道它们存在。为了真正将它们纳入,AI必须从头重新阅读和重新组织所有内容,这花了40分钟,并消耗了真金白银的API费用。然后我注意到,有三篇旧摘要引用的文章已经更新了几周。维基还在自信地告诉我一个早已不存在的源版本。这时我才恍然大悟。Karpathy的方法假设你的源是静止的。真正的研究不是这样。文章会更新,帖子会被删除,你也会批量添加新内容。基于快照构建的维基,在你完成构建的那一刻就开始变旧。 我不断遇到的维护问题: - 过期的摘要。源更新了,你的摘要却悄悄地错了。没有任何提示。无法知道什么变了。即使我知道源被编辑过,也无法判断这次编辑是否重要到需要重新摘要。 - 添加新东西意味着重做一切。没有干净的方法只插入新源而不重建整个维基。 - 删除比更新更糟。移除一个源后,维基仍然像幽灵一样引用它。 - 同一个网站改版后解析方式变了。直到摘要出现错误你才会注意到。 这些都不是关于提示词的问题,也不是关于你用哪个AI模型的问题。全部在于保持底层资料库的新鲜和整洁,而这部分没人谈论。 第四周:放弃并尝试无代码方案 这感觉像失败。我不知道是否只有我这样。以下是我在考虑的一些低代码方案。也许我错过了什么,需要回到起点重新思考。如果是这样,请你在下面给我一些指导吗?相信我,我几乎看了所有教程,也翻遍了所有相关帖,但可能就是我自己的问题。我现在正在寻找Karpathy的LLM维基的无代码解决方案。我考虑的有这些。有人试过并成功建立起流程吗? - Claude with Notion:这不是真正的无代码,但它是Obsidian的替代方案,我实际上觉得它相当巧妙。我找到了很顺手的MCP,而且我很喜欢我不仅可以做知识管理,还能创建任务和提醒。这并非完全相同的流程,但是一个略微调整的版本,我觉得挺酷的。缺点是Notion处理YouTube视频和PDF不太好。 - Mymind:这个我超级兴奋,但还不太准备使用。网站很美,我在里面感觉很平静,但我不确定这是终身第二大脑还是一个平静的Pinterest知识库。有人用过吗?请告诉我。 - Recall:AI知识库是最接近Karpathy实际描述的方案。看起来你可以添加几乎任何在线内容:YouTube视频、播客、PDF,它会自动读取、总结、标记并连接一切。缺点是基于云端的。 我真正想知道的是: 有没有人构建了自己版本且不会变旧的方案?我搞不定,很希望自己是错的。对于仍在运行Karpathy方案并拥有大量资料的人,你们是如何处理当文章被编辑时摘要过时的问题?我是否错过了一个工具,它把保持源新鲜当作主要任务,而不是事后才考虑的事?
查看原文

相似文章