@DataScienceDojo:Andrej Karpathy 的 LLM Wiki 是一种构建个人知识库的模式,能够随时间持续积累。

X AI KOLs Timeline 工具

摘要

Andrej Karpathy 的 LLM Wiki 模式能够构建一个持久化、结构化的知识库,并随时间不断累积,这与无状态的 RAG 系统不同。本教程展示了如何在 30 分钟内使用 LLM 来编译和链接 Markdown 页面,从而创建一个这样的知识库。

Andrej Karpathy 的 LLM Wiki 是一种构建个人知识库的模式,能够随时间真正地不断累积。 这张图展示了完整流程。 原始资料——PDF、网页文章、笔记、GitHub 仓库——都放入 raw/ 文件夹。 LLM 读取这些资料,并将结构化的 Markdown 页面编译到 wiki/ 文件夹中,每个概念一个页面,所有页面通过 [[wiki-links]] 相互链接。 当用户提出问题时,模型会导航这个预构建的知识图谱,并返回丰富、详细的答案,而不仅仅是从原始文档中提取的片段。 它与 RAG 的根本区别在于:RAG 每次查询都要从头重新发现知识,而 LLM Wiki 一次构建即可,每次添加新来源时都会累积知识。 完整的教程现已发布,教你如何在 30 分钟内创建自己的个人 LLM Wiki。请在此阅读:https://hubs.la/Q04cy1kS0 #llm #llmwiki #rag #andrejakarpathy #agenticai #knowledgebase #generativeai
查看原文
查看缓存全文

缓存时间: 2026/07/04 06:39

Andrej Karpathy 的 LLM Wiki 是一种构建个人知识库的模式,能让知识真正随时间积累。

图表展示了完整流程。

原始资料——PDF、网络文章、笔记、GitHub 仓库——放入 raw/ 文件夹。

LLM 阅读这些资料,并将结构化的 Markdown 页面编译到 wiki/ 文件夹中,每个概念一个页面,所有页面通过 [[wiki-links]] 相互链接。

当用户提问时,模型会遍历这个预先构建的知识图谱,返回丰富、详细的答案,而不仅仅是从原始文档中抽取的片段。

这与 RAG 的本质区别在于:RAG 每次查询都要从头重新发现知识,而 LLM Wiki 一次构建,每添加一个新来源都会累积知识。

完整的教程可在 30 分钟内创建你自己的个人 LLM Wiki。现在阅读:https://hubs.la/Q04cy1kS0

#llm #llmwiki #rag #andrejakarpathy #agenticai #knowledgebase #generativeai


Andrej Karpathy 的 LLM Wiki:构建一个不断累积的知识库(教程)

来源:https://datasciencedojo.com/blog/llm-wiki-tutorial/?utm_campaign=9062674-Social%20Media%20Marketing&utm_source=linkedin&utm_medium=social&utm_term=llm_wiki_tutorial&utm_content=blog 关键要点

  • LLM wiki 是一个结构化的、由 AI 维护的知识库,每添加一个来源都会变得更智能——这与 RAG 每次查询都要从头重新发现知识不同。
  • 该模式由 Andrej Karpathy 在 2026 年 4 月的一篇 GitHub Gist 中提出,并在几天内风靡开发者社区。
  • 你可以在 30 分钟内用五篇免费研究论文、电脑上的一个文件夹以及 Claude Code 或 Claude.ai 构建你的第一个 LLM wiki。

如果你曾将 PDF 上传到 ChatGPT,问了一个问题,然后第二天又上传同一个 PDF 问跟进问题……那么你已经理解了 LLM wiki 要解决的问题。

如今大多数 AI 知识工具都是无状态的。每次会话都从零开始。一次对话中你学到的东西不会延续到下一次。模型检索、回答,然后遗忘。第二天问同一个问题,它又从头构建答案。

OpenAI 联合创始人、前 Tesla AI 总监 Andrej Karpathy 在 2026 年 4 月提出了一种不同的方法。他称之为 LLM wiki:一个持久化、结构化的知识库,由 AI 代理主动构建和维护,让知识随会话积累而非消逝。

本教程将精确引导你如何构建一个,使用五篇基础 AI 研究论文作为起始材料。

Andrej Karpathy 的 LLM Wiki 是如何工作的?Andrej Karpathy 的 LLM Wiki

什么是 LLM Wiki,为什么它很重要?

LLM wiki 是一个纯 Markdown 文件的文件夹,AI 代理替你读取、写入和维护。每个文件是一个实体页面:一个结构化的、类似 Wikipedia 的词条,涵盖一个概念,并通过 [[wiki-links]] 链接到相关概念。

与其他知识工具的关键区别在于当你添加新来源时会发生什么。

在标准的 RAG 系统中(NotebookLM、ChatGPT 文件上传、大多数企业工具),添加新文档意味着它被索引并与其他文档并列。当你提问时,系统检索相关片段并生成答案。文档本身从不改变。没有任何综合,没有任何连接。

在 LLM wiki 中,添加新文档会触发一个编译步骤。代理阅读新来源现有 wiki,然后:

  • 用新信息更新现有页面
  • 为首次出现的概念创建新的实体页面
  • 添加 [[wiki-links]],将新概念与 wiki 中已有的相关概念连接
  • 标记新来源与之前所写内容之间的矛盾

随着时间的推移,wiki 变成了一个连接的知识图谱,而不仅仅是一堆文档。10 个页面时它能回答基本问题;50 个页面时它开始综合你从未明确连接的想法;100+ 页面时,它可以回答答案不在任何单一来源中的问题——因为答案存在于页面之间的关系中。

LLM Wiki 与 RAG:真正的区别是什么?

特性RAGLLM Wiki
知识持久性无——无状态全——随时间累积
多文档综合每次查询从头开始预编译为页面
矛盾检测是——编译时标记
来源可追溯性中等(页面级别)
设置复杂度低至中
最适合文档快速问答深度、不断增长的研究主题

值得了解的权衡:当你的数据每天变化或每个声明的确切来源可追溯性很重要时,RAG 更合适。当你需要在数周或数月内建立某个主题的专业知识,并希望模型跨知识库推理而非仅从中检索时,LLM wiki 更好。

开始前需要什么

工具:

  • 一台可以访问文件夹的电脑(Mac、Windows 或 Linux)
  • Claude.ai (https://claude.ai/) 账户(免费版即可用于本教程)或 Claude Code(如果你更喜欢终端)
  • Obsidian (https://obsidian.md/):免费 Markdown 编辑器(可选,但推荐用于图形视图)

文件:

  • 5 篇研究论文,下载为 PDF(链接在下一节)

所需知识:

  • 你知道如何在电脑上创建文件夹
  • 你知道如何从 URL 下载文件
  • 本教程的 Claude.ai 版本无需编码

**预计时间:**25-35 分钟完成你的第一个 wiki

步骤 1:下载起始论文

本教程使用五篇基础 AI 研究论文。它们很理想,因为它们是按顺序递进的——LLM 自然会为注意力、微调、扩展和一致性等概念建立丰富的连接。

五篇论文在 arXiv 上均可免费获取。将每篇下载为 PDF,并存放在容易找到的地方。

论文 1:Attention Is All You Need (2017) (https://arxiv.org/pdf/1706.03762) 原始 transformer 论文。现代一切的基础。

论文 2:BERT (2018) (https://arxiv.org/pdf/1810.04805) 用于语言理解的双向 transformer——直接建立在注意力之上。

论文 3:GPT-3 (2020) (https://arxiv.org/pdf/2005.14165) 作为少样本学习者的语言模型——引入了大规模涌现能力。

论文 4:Foundation Models (2021) (https://arxiv.org/pdf/2108.07258) 综述性论文,将 transformer、扩展和下游应用联系起来。

论文 5:RLHF (2022) (https://arxiv.org/pdf/2203.02155) GPT 模型如何使用人类反馈进行对齐——通向现代助手的桥梁。

下载 LLM Wiki 教程的研究论文添加到 /raw 文件夹的研究论文

**完成此步骤后,你应该有:**五篇 PDF 文件保存到电脑上。

步骤 2:创建文件夹结构

在电脑上的任意位置创建一个新文件夹——桌面、文档等。命名为 my-wiki。

在其中创建两个文件夹:

my-wiki/ ├── raw/ └── wiki/

  • raw/ 用于存放所有源文件——PDF、文章、笔记。你永远不会手动编辑这里的内容。
  • wiki/ 用于存放编译后的实体页面。LLM 在此写入。

现在将刚下载的五篇 PDF 移动到 raw/ 文件夹中。

LLM wiki 文件夹结构,包含 raw 和 wiki 目录LLM wiki 文件夹结构,包含 raw 和 wiki 目录

**完成此步骤后,你应该有:**一个文件夹结构,raw/ 中有五篇 PDF。

步骤 3:运行编译提示

这是核心步骤,LLM wiki 模式真正开始起作用。

选项 A:使用 Claude.ai(无需终端)

打开 Claude.ai,使用附件按钮一次性上传全部五篇 PDF。然后发送以下提示:

这是我使用 LLM wiki 的经典提示。用它来阅读原始文件夹中的内容,并为每个关键实体创建结构化页面:

“”“你是一个 LLM wiki 编译器。你的任务是将 raw/ 文件夹中的 PDF 编译为 wiki/ 文件夹中结构化的 Markdown 实体页面。遵循以下规则:

  1. 为每个关键概念创建一个实体页面:技术、模型、人物、方法、算法。使用概念名称作为文件名(例如 attention-mechanism.md)。
  2. 每个页面应包含:
    • 一个简洁的定义
    • 3-4 句解释
    • 一个“参见”部分,列出相关的现有概念,格式为 [[wiki-links]]
    • 一个“来源”部分,列出引用该概念的论文
  3. 如果两个来源存在矛盾,创建一个“争议”部分加以标记。
  4. 为整个 wiki 创建一个 index.md,列出所有实体及其简要描述。
  5. 将所有内容写入 wiki/ 文件夹。使用一致的 Markdown 格式。“”“

这就是你真正需要的全部。Claude 将为每个关键概念生成一个 Markdown 实体页面——每个页面包含摘要、解释、指向相关概念的 wiki-links,以及它在论文间发现的任何矛盾。

将每个页面复制到 wiki/ 文件夹中的 .md 文件。

另外:如果你希望随着 wiki 增长拥有更多结构,可以扩展提示,要求 Claude 还创建一个 index.md,列出所有实体页面及一行描述,以及一个 log.md,跟踪编译了什么及何时编译。当你有 30+ 页面时,这些会成为有用的导航工具,但刚开始并不需要。

选项 B:使用 Claude Code(终端)

如果你安装了 Claude Code,打开终端,导航到你的 wiki 文件夹,启动它:

cd my-wiki claude

然后粘贴上面相同的提示。Claude Code 将直接读取文件并将页面写入 wiki/ 文件夹——无需复制粘贴。

Claude Code 提示用于创建 LLM wikiClaude Code 提示用于创建 LLM wiki由 Claude Code 创建的实体页面由 Claude Code 创建的实体页面

**完成此步骤后,你应该有:**10-20 个 Markdown 实体页面在你的 wiki/ 文件夹中。

步骤 4:在 Obsidian 中打开你的 Wiki

安装 Obsidian (https://obsidian.md/)(免费,无需账户)。启动后,点击将文件夹作为库打开,选择你的 wiki/ 文件夹。

使用 Obsidian 为 LLM Wiki 创建图使用 Obsidian 为 LLM Wiki 创建图

立即查看两样东西:

图形视图——按 Ctrl+G(Mac 上按 Cmd+G)。你将看到实体页面作为节点,[[wiki-links]] 渲染为连接它们的边。仅五篇论文后,你应该会看到一个虽小但有意义的图——transformer 架构链接到注意力机制,BERT 链接到微调,RLHF 链接到对齐和 GPT。

Obsidian 中 LLM wiki 的图形视图,展示了 transformer 概念上链接的实体页面Obsidian 中 LLM wiki 的图形视图,展示了 transformer 概念上链接的实体页面

**完成此步骤后,你应该有:**Obsidian 中可视化、可导航的知识图谱。

步骤 5:添加更多来源,观察累积效应

将一篇新论文放入 raw/,任何与 transformer、语言模型或 AI 对齐相关的论文都可以。然后再次运行编译提示,这次稍作改动:

“”“添加了新来源。更新现有 wiki:创建任何缺失的实体页面,根据需要更新现有页面,添加新的 [[wiki-links]],并标记任何矛盾。”“”

这就是累积效应变得可见的地方。新论文不仅创建新页面,还丰富已有的页面。一个只有两个出链的“注意力机制”页面,现在可能有五个。一个未受质疑的声明,现在可能标记了一个矛盾。

步骤 6:运行审核检查

每当你的 wiki 新增大约 20 个页面,运行这个维护提示:

“”“在当前 wiki 上执行一次审核检查:

  1. 找到任何没有入链的孤页。考虑这些页面是否应从 index.md 中链接,或者是否应删除。
  2. 找到任何格式不一致的页面(标题级别不一致、表格格式混乱等)并修复它们。
  3. 找到任何带有“争议”标记仍未被解决的页面,并添加一个注释说明尚未添加解决来源。
  4. 确保每个实体页面在 index.md 中有正确的一行描述。“”“

这是自我修复步骤。它能让 wiki 在增长时保持准确性,而不是慢慢漂移到无意的不一致中。

提示:“每新增 20 个页面运行一次审核检查,或者每当你添加一个显著更新了 wiki 中已有主题的来源时也运行一次。”

**完成此步骤后,你应该有:**一个干净、内部一致的 wiki,没有孤页,所有标记的矛盾都已解决或注明。

常见错误避免

**一个页面内容过多。**每个实体页面应恰好覆盖一个概念。如果一个页面开始涵盖两个想法,就拆分它。密集的单一概念页面能产生更好的链接和更好的答案。

**从不运行审核检查。**小错误在 wiki 中传播很快。一个页面上的错误声明会被其他三个页面链接,结果你得到了组织良好的错误信息。定期运行审核检查。

**一次添加太多不相关主题。**当来源在主题上相关时,wiki 的累积效果最好。从同一主题的五篇论文开始,比从五个不同主题的五篇论文更能产生丰富的图。

常见问题

什么是 LLM wiki? LLM wiki 是一个个人知识库,由纯 Markdown 文件组成,由 AI 代理主动构建和维护。与每次查询都在原始文档中搜索的 RAG 系统不同,LLM wiki 将知识预编译为结构化、互连的实体页面——因此答案随时间累积,而不是被重新发现。

谁创建了 LLM wiki 概念? Andrej Karpathy,OpenAI 联合创始人、前 Tesla AI 总监,在 2026 年 4 月发布的一篇 GitHub Gist 中描述了这一概念。该帖子在发布后几天内就在开发者社区中走红。

构建 LLM wiki 需要会编码吗? 不需要。本教程的 Claude.ai 版本无需编码——只需上传 PDF 并粘贴提示。Claude Code 让工作流程更快更自动,但并非开始所必需。

LLM wiki 与单独的 Notion 或 Obsidian 有何不同? Notion 和 Obsidian 是用于人工笔记的工具——你亲自组织和编写所有内容。LLM wiki 使用同样的工具作为查看界面,但实际的编译、链接和维护由 AI 代理完成。你提供原始来源;代理构建结构。

LLM wiki 能有多大? Karpathy 自己的 wiki 在他说 LLM 仍然可以使用索引和摘要高效导航之前,达到了大约 100 篇文章和 400,000 个词。在那个规模下,系统对于他的研究用例来说仍然比 RAG 管道更快更准确。

raw/ 文件夹支持哪些文件类型? PDF 最适合研究论文。Markdown 文件适合从网页剪切的文章(Obsidian Web Clipper 浏览器扩展可以自动将任何网页转换为 Markdown)。纯文本、导出的聊天对话和 .md 笔记都可以。LLM 会读取你放入的任何内容。

接下来构建什么

一旦你的第一个 wiki 运行起来,一些自然的后续步骤:

  • **添加 Obsidian Web Clipper 浏览器扩展。**它可以将任何网页转换为 Markdown 并直接保存到你的 raw/ 文件夹。这使得摄入文章如同添加书签一样快。
  • **尝试主题特定的 wiki。**每个研究领域一个 wiki 通常比一个巨大的 wiki 产生更清晰的图。为新主题启动一个独立的 wiki,而不是把所有东西混在一起。
  • **基于你的 wiki 进行微调。**当拥有 100+ 维护良好的页面时,wiki 成为一个高质量的训练集。你最终可以基于它微调 (https://datasciencedojo.com/blog/fine-tuning-llms/) 一个较小的模型——将你的个人研究转化为自定义私人智能。

准备构建强大且可扩展的 LLM 应用? 探索我们的 LLM 训练营 (https://datasciencedojo.com/bootcamps/llm-bootcamp/)Agentic AI 训练营 (https://datasciencedojo.com/bootcamps/agentic-ai-bootcamp/),获取构建生产级检索增强和代理式 AI 的实践培训。

相似文章

LLM Wiki v2(16分钟阅读)

TLDR AI

本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。