# llm-knowledge-base **Repository Path**: hemiao3000/llm-knowledge-base ## Basic Information - **Project Name**: llm-knowledge-base - **Description**: No description available - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-11 - **Last Updated**: 2026-04-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # LLM 知识库 以 LLM 编译为核心的个人知识管理系统。灵感来自 [Andrej Karpathy 的 LLM 知识库工作流程](https://x.com/karpathy/status/2039805659525644595)及[Andrej Karpathy 的 想法文件](https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f),把原始素材与编译知识分开。 ## 跟 Andrej Kapathy llm-wiki 概念文件的差别 Andrej Kapathy的llm-wiki是三层式的架构(raw->wiki->schema)他的架构是由低到高,由上层架构管理下层资料。我的四层架构是(raw->wiki->brainstorming->artifacts),偏向工作流式的架构,资讯在不同阶段间流动。我同时是知识的生产者跟消费者,所以需要双向编译跟与AI讨论的阶段,但最终都会透过LLM编译汇整到wiki。 ## 问题所在 大多数个人知识系统最终都成了墓地。你收藏文章、做笔记、画重点——然后再也不去看。**收集** 、**理解**与**输出**之间的落差,就是埋葬知识的地方。 这个系统透过让 LLM **编译**你的原始素材,把它们转化成结构化、相互连结的知识:摘要、概念条目、索引,同时保持原始来源完好不动,来填补这个落差。 ## 架构 ``` raw/ ← 你的图书馆:未经编辑的原始素材 ├── articles/ 收藏的文章 ├── books/ 书籍笔记与画线 ├── podcasts/ podcast 逐字稿 ├── papers/ 学术论文 ├── notes/ 你的快速想法 │ └── social/ 社群平台汇入(facebook/ 等) └── projects/ 专案相关素材 wiki/ ← 你的百科全书:LLM 编译的知识 ├── summaries/ 每个来源一份摘要 ├── concepts/ 概念条目(交叉引用) └── indexes/ All-Sources.md、All-Concepts.md brainstorming/ ← 你的实验笔记本:探索与品质管理 ├── chat/ 问答记录与推理过程 └── health/ 知识库健康报告 artifacts/ ← 你的发表成果:完成的作品 └── projects/ 你的专案与产出 ``` **核心原则**:原始素材是唯读的。LLM 把它们编译进 wiki/,但永远不修改你的原始档案。 ## 快速开始 1. 下载这个repo 2. 将要测试的资料放入这个资料夹 3. 在这个资料夹打开 Claude Code 4. 执行 `/init-llm` 进行互动式设定——它会问你几个问题,然后帮你设定好一切 5. 把第一篇文章丢进 `raw/articles/` 6. 执行 `/compile`——看著第一份摘要和概念条目出现在 `wiki/` 里 ## Claude 与 Codex 这个 repo 现在同时支援 Claude 与 Codex,但两者的入口不同: - `CLAUDE.md`:给 Claude Code 的专用设定 - `.claude/commands/`:给 Claude Code 的 slash commands - `AGENTS.md`:给 Codex 与其他通用 agent 的操作规则 - `docs/workflows.md`:供应商中立的工作流程定义 如果你用的是 Claude Code,照原本的 `/compile`、`/thinking-partner`、`/write-partner` 等指令操作即可。 如果你用的是 Codex,不需要复制 `.claude/commands/`。让 Codex 读 `AGENTS.md`、`docs/architecture.md`、`docs/workflows.md` 与 `docs/examples/`,再执行等价流程就可以。 ## 指令 这个系统包含 6 个 Claude Code 斜线指令: | 指令 | 功能 | |------|------| | `/init-llm` | 互动式设定——询问你的个人资料与偏好、扫描现有档案、提出整理计划,并设定 `CLAUDE.md` | | `/compile` | 读取 `raw/` 和 `artifacts/`,在 `wiki/summaries/` 生成摘要,提取概念至 `wiki/concepts/`,更新索引 | | `/convert-to-md` | 将 EPUB / PDF / DOCX 档案或 Facebook JSON 汇出转成 Obsidian Markdown,存入对应的 `raw/` 子目录 | | `/health-check` | 扫描 `wiki/` 的一致性问题、完整性缺口与连结性问题,输出优先排序报告至 `brainstorming/health/` | | `/thinking-partner` | 协作思考——搜寻 vault 中的相关笔记、提出厘清问题,帮你深度探索复杂问题 | | `/write-partner` | 写作探索——找出 vault 中的相关内容、反例与开放问题,帮你在动笔前把想法挖得更深 | | `/braindump` | 把对话沉淀成可复用的素材——问答记录、文章草稿,或两者都要——存至 `brainstorming/chat/` | ## 编译如何运作 ``` 1. 你把一个档案放进 raw/articles/ 2. 执行 /compile 3. LLM 读取档案,判断 origin(external vs. self) 4. 在 wiki/summaries/ 生成摘要,包含: - 核心结论 - 关键证据 - 疑点 - 术语 5. 把在 2 个以上摘要中出现的概念提取至 wiki/concepts/ 6. 更新 wiki/indexes/(All-Sources.md、All-Concepts.md) ``` 每个概念条目把**你的实践**与**外部观点**分开,并有专门的**张力与缺口**段落。这是核心知识价值所在——你的经验与研究并排存在,矛盾被浮现出来,而不是被掩盖。 ## 一个实际例子 假设你读到一篇谈「AI 怎么改变学生提问能力」的文章,这套系统会这样运作: ### 第一步:捕捉 你先把文章存进 `raw/articles/20260404 AI改变学生提问能力.md`。这一步只做收集,不需要先分类、摘要,或决定它跟哪个主题有关。 ### 第二步:编译 等你累积了几篇相关文章,再执行 `/compile`。系统会: 1. 读取 `raw/` 里的新档案 2. 生成摘要,存到 `wiki/summaries/AI改变学生提问能力.md`,内容包含核心结论、关键证据与疑点 3. 提取概念;如果 `wiki/concepts/提问能力.md` 还不存在,就建立一份,若已存在就更新它,把这篇新来源纳入 4. 更新索引,让 `wiki/indexes/All-Sources.md` 多出一笔纪录 ### 第三步:问答 之后某天你想写一篇文章,使用 `/write-partner`: > AI 辅助教学到底是增强还是削弱了学生的提问能力?研究怎么说?我自己的课堂经验又怎么说? 系统会: - 翻 `wiki/summaries/` 找外部研究与相关摘要 - 翻你放在 `artifacts/` 里的文章、教学记录或其他实践素材,找出你自己的经验 - 使用 `/braindump`把整理过的推理过程与结论存到 `brainstorming/chat/` ### 第四步:产出 你根据这些资料写出一篇文章,存回 `artifacts/`。下次编译时,这篇文章也会被摘要;但因为它是你的作品,系统会用偏向「你的主张」与「实践经验」的格式来整理,而不只是把它当成外部来源做一般摘要。 ## 为什么我最后变成这样做 我最早用 Google Docs 写东西,几乎没有结构想到什么写什么,反正就打关键字搜寻。后来接触到第二大脑与 Tiago Forte 的 CODE 方法,我以为问题在于自己还不够会整理;结果真正耗掉时间的,反而是分类、资料夹、Tag 这些组织工作。等我把系统想清楚,已经没有力气读书、思考或写出自己的东西。 NotebookLM 出现之后,我以为「不要整理,全部交给 AI」。但很快就发现,没有可累积的记忆或是反复的上传跟整理资料夹,我依然没有把时间花在思考 ,知识没有真正内化。 所以我把系统换成四层:`raw/` 放原始资料、`wiki/` 放 LLM 编译后的摘要与概念、`brainstorming/` 放与 AI 的探索纪录、`artifacts/` 放自己的成品。表面上看起来比以前更严谨,但实际上我真正碰的主要只有两层:把灵感丢进 `raw/notes/`,把完成的文章放进 `artifacts/`。中间的整理、连结、概念提取,交给 AI 去做。 也正是在这一步,我才第一次感受到这种系统的价值。AI 不只是替我做摘要,而是能把不同文章里反复出现、却从来没有被我并排思考过的概念抽出来,重新编成脉络。像 High Agency 这类想法,我明明在很多来源都碰过,却从来没有自己把它们连在一起。这种跨来源的概念编译,是我手动很难稳定做到的事。 但换了几次系统之后,我也慢慢确定:真正的问题从来不只是工具。以前用第二大脑摩擦力(或努力)来自整理本身;每则笔记都要归类、命名、搬到对的位置。那很烦,但也逼你重新接触材料。现在整理交给 AI,摩擦力没有消失,只是换了形式。它变成对话里那些你答不上来的问题、那些被指出的矛盾、那些你以为想清楚其实还没有的地方。以前是一个人安静地重读材料,现在是透过对话被迫澄清自己的想法。 所以这个 repo 最后想保留的,不是某一套完美分类法,而是一个比较耐用的知识流:原始灵感持续进入 `raw/`,编译后的理解沉淀到 `wiki/`,探索过程留在 `brainstorming/`,真正重要的产出落到 `artifacts/`。工具会一直换,流程也会一直改,但只要你的笔记和作品还在,系统就没有白做。 ## 自订 参阅 [docs/customization.md](docs/customization.md) 了解如何: - 更改编译输出的语言 - 在 `artifacts/` 下新增特定领域的子资料夹 - 自订摘要和概念条目的段落标题 - 为你的领域调整系统 ## 致谢 架构灵感来自 [Andrej Karpathy 的 LLM 知识库概念](https://x.com/karpathy/status/2039805659525644595)及[Andrej Karpathy 的 想法文件](https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f)。原始实作与编译工作流程由 [@gatelynch](https://github.com/gatelynch)与 [@claude](https://github.com/claude) 完成。 ## 作者 **gatelynch** — [GitHub](https://github.com/gatelynch) · [Facebook](https://www.facebook.com/gatelynch/) · [Email](mailto:gatelynch@gmail.com) ## 授权 MIT