“你以为自己是在用 AI 学习,实际上,每次对话 AI 都在从零开始。” — Andrej Karpathy

最近,AI 领域的大神 Andrej Karpathy 在 X 上分享了他用 LLM 构建个人知识库的方法,帖子获得了超过 4,300 万次浏览。这位 OpenAI 创始成员、特斯拉前 AI 总监,将其沉淀了两年的实践整理成了一份开源 gist(https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f),随即在社区引发了大量讨论。

这个方法被命名为 LLM Wiki。它的核心思想很简洁:让 LLM 不再只是回答问题的工具,而是担任「知识库管理员」的角色,主动编译、链接、维护一个持久化的维基百科式知识库。

LLM Wiki 概念图

传统 RAG 的「失忆症」

在理解 LLM Wiki 之前,有必要先看清楚传统方案的问题。

当前大多数 AI 知识库方案基于 RAG(检索增强生成):用户上传文档,AI 在每次对话时从向量数据库中检索相关片段,再生成答案。这套流程看似合理,但存在一个根本性的低效:每次对话都是一次「从零开始」

想象一下:你在 ChatGPT 上传了一份项目文档,问了 AI 几个问题。关掉会话后重新打开,AI 对你的项目一无所知。再问一次,它只能重新读取文档、建立上下文——就像每次写文章都要重新整理一遍参考文献。这种模式消耗大量 token,不仅效率低,而且每次都在重复劳动。

Karpathy 指出,这本质上是把 token 预算浪费在了「重复生成上下文」上,而不是真正地「构建知识」。

LLM Wiki 的核心原理

LLM Wiki 的思路与 RAG 截然不同:不是每次查询时临时检索,而是让 LLM 主动构建并维护一个持久化的知识库。

具体来说,用户将原始资料(论文、文章、代码、图片等)放入 raw/ 目录。LLM 会持续地:

  1. 读取并提取原始资料中的关键信息
  2. 编译为结构化的 Markdown 维基页面
  3. 创建反向链接,将相关内容互联
  4. 持续更新,修正矛盾、完善知识体系

这个维基一旦构建完成,就成为了用户与原始数据之间的一个持久化中间层。用户不再是每次提问时让 AI 从文档中临时挖掘知识,而是直接与这个经过整理、结构化的知识库交互。

Karpathy 在他的案例中提到,当这个维基达到 100 篇文章、40 万字的规模时,效果显著优于传统 RAG——而且完全人类可读、可审计,不存在供应商锁定问题。

LLM Wiki 的核心是一个持续运转的四阶段循环:

1. Compile(编译)

当新的原始资料进入 raw/ 目录时,LLM 会主动读取文件内容,提取关键概念、事实和关系,并将其编译为结构化的 Markdown 页面。这个阶段的核心任务是将非结构化的原始数据转化为结构化的知识条目

2. Link(链接)

编译出的页面并非孤立存在。LLM 会主动创建反向链接(backlinks)和概念分类,将相关主题的页面相互关联。Karpathy 推荐使用 Obsidian 作为前端来浏览这个维基,因为 Obsidian 原生支持双链和图谱视图,能够直观地展示知识点之间的关系网络。

3. Archive(归档)

随着时间推移,维基会持续更新和完善。LLM 会修正过时的信息、补充新内容、处理矛盾之处。这个阶段的关键是知识的自我修复能力——系统不再是静态的存档,而是一个活的、持续生长的知识体。

4. Retrieve(检索)

当用户提出问题时,LLM 不再需要从原始文档中临时检索,而是直接基于这个结构化的维基来回答。由于知识已经被编译和链接,系统能够回答更复杂、更跨领域的综合性问题,而不只是简单的关键词匹配。

LLM Wiki vs. 传统 RAG

维度 传统 RAG LLM Wiki
上下文构建 每次对话从零重建 一次构建,持久维护
Token 消耗 高(重复构建上下文) 低(结构化知识复用)
知识形态 分散的文档片段 结构化的互联页面
可审计性 黑盒检索过程 完全人类可读
供应商锁定 依赖向量数据库 纯 Markdown,无锁定
跨领域综合能力 弱(依赖即时检索) 强(知识已结构化)

RAG 的优势在于实时性——新数据添加后立刻可以被检索。但当知识库达到一定规模,且数据更新不那么频繁时,LLM Wiki 的效率优势就非常明显了。

对个人知识管理的启示

LLM Wiki 之所以引发广泛讨论,不只是因为它是一个更好的技术方案,更因为它暗示了一种人与 AI 协作管理知识的新范式

第一,「操作知识」比「操作文档」更高效

Karpathy 提到,他在使用这个系统后,用于「操作代码」的 token 大幅减少,而用于「操作知识」(以 Markdown 和图片形式存储)的 token 大幅增加。这说明当知识被结构化之后,AI 能够更高效地理解和复用它

这对于个人知识管理的启示是:与其追求「把所有东西都存起来」,不如花时间把知识整理成可互联的结构。一张经过整理的知识图谱,比一堆未读的收藏夹更有价值。

第二,AI 时代的「第二大脑」需要主动维护

传统笔记软件(Notion、Obsidian 等)的核心理念是「自己动手整理」。LLM Wiki 则更进一步:让 AI 承担「知识库管理员」的职责,主动编译、更新和链接知识,人类则从整理工作中解放出来,专注于提问和探索。

这并不意味着人可以完全撒手——但它改变了人机协作的分工:AI 负责「整理」,人负责「思考」。

第三,分享「想法」比分享「代码」更重要

Karpathy 将他的方法论以纯文本 gist 的形式分享,而不是一个完整的应用或代码库。他在 X 上写道:

“在 LLM Agent 时代,分享代码的意义已经不如分享想法。把『想法』交给对方的 Agent,它就能根据你的需求自动完成定制和实现。”

这句话指向一个更大的趋势:当 AI Agent 能够自主执行复杂任务时,人类最有价值的不再是掌握某项技能,而是提出好问题的能力构建知识体系的方法论

小结

LLM Wiki 的出现,本质上是对「AI 应该如何管理知识」这个问题的一次重新思考。它不是 RAG 的替代品——两者适用于不同的场景。但它提供了一个重要的方向:与其让 AI 每次从文档中临时检索,不如让 AI 主动帮我们构建一个持久、可审计、互联的知识体系。

当这个体系生长到一定规模,它就不再只是「检索工具」,而真正成为了一个人的「第二大脑」。

“君子生非异也,善假于物也。” —《荀子·劝学》


信息说明