# llm-knowledge-base

**Repository Path**: hemiao3000/llm-knowledge-base

## Basic Information

- **Project Name**: llm-knowledge-base
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-04-11
- **Last Updated**: 2026-04-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# LLM 知识库

以 LLM 编译为核心的个人知识管理系统。灵感来自 [Andrej Karpathy 的 LLM 知识库工作流程](https://x.com/karpathy/status/2039805659525644595)及[Andrej Karpathy 的 想法文件](https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f)，把原始素材与编译知识分开。


## 跟 Andrej Kapathy llm-wiki 概念文件的差别

Andrej Kapathy的llm-wiki是三层式的架构(raw->wiki->schema)他的架构是由低到高，由上层架构管理下层资料。我的四层架构是(raw->wiki->brainstorming->artifacts)，偏向工作流式的架构，资讯在不同阶段间流动。我同时是知识的生产者跟消费者，所以需要双向编译跟与AI讨论的阶段，但最终都会透过LLM编译汇整到wiki。

## 问题所在

大多数个人知识系统最终都成了墓地。你收藏文章、做笔记、画重点——然后再也不去看。**收集**
、**理解**与**输出**之间的落差，就是埋葬知识的地方。

这个系统透过让 LLM **编译**你的原始素材，把它们转化成结构化、相互连结的知识：摘要、概念条目、索引，同时保持原始来源完好不动，来填补这个落差。


## 架构

```
raw/                    ← 你的图书馆：未经编辑的原始素材
  ├── articles/           收藏的文章
  ├── books/              书籍笔记与画线
  ├── podcasts/           podcast 逐字稿
  ├── papers/             学术论文
  ├── notes/              你的快速想法
  │   └── social/          社群平台汇入（facebook/ 等）
  └── projects/           专案相关素材

wiki/                   ← 你的百科全书：LLM 编译的知识
  ├── summaries/          每个来源一份摘要
  ├── concepts/           概念条目（交叉引用）
  └── indexes/            All-Sources.md、All-Concepts.md

brainstorming/          ← 你的实验笔记本：探索与品质管理
  ├── chat/               问答记录与推理过程
  └── health/             知识库健康报告

artifacts/              ← 你的发表成果：完成的作品
  └── projects/           你的专案与产出
```

**核心原则**：原始素材是唯读的。LLM 把它们编译进 wiki/，但永远不修改你的原始档案。

## 快速开始

1. 下载这个repo
2. 将要测试的资料放入这个资料夹
3. 在这个资料夹打开 Claude Code
4. 执行 `/init-llm` 进行互动式设定——它会问你几个问题，然后帮你设定好一切
5. 把第一篇文章丢进 `raw/articles/`
6. 执行 `/compile`——看著第一份摘要和概念条目出现在 `wiki/` 里

## Claude 与 Codex

这个 repo 现在同时支援 Claude 与 Codex，但两者的入口不同：

- `CLAUDE.md`：给 Claude Code 的专用设定
- `.claude/commands/`：给 Claude Code 的 slash commands
- `AGENTS.md`：给 Codex 与其他通用 agent 的操作规则
- `docs/workflows.md`：供应商中立的工作流程定义

如果你用的是 Claude Code，照原本的 `/compile`、`/thinking-partner`、`/write-partner` 等指令操作即可。

如果你用的是 Codex，不需要复制 `.claude/commands/`。让 Codex 读 `AGENTS.md`、`docs/architecture.md`、`docs/workflows.md` 与 `docs/examples/`，再执行等价流程就可以。

## 指令

这个系统包含 6 个 Claude Code 斜线指令：

| 指令 | 功能 |
|------|------|
| `/init-llm` | 互动式设定——询问你的个人资料与偏好、扫描现有档案、提出整理计划，并设定 `CLAUDE.md` |
| `/compile` | 读取 `raw/` 和 `artifacts/`，在 `wiki/summaries/` 生成摘要，提取概念至 `wiki/concepts/`，更新索引 |
| `/convert-to-md` | 将 EPUB / PDF / DOCX 档案或 Facebook JSON 汇出转成 Obsidian Markdown，存入对应的 `raw/` 子目录 |
| `/health-check` | 扫描 `wiki/` 的一致性问题、完整性缺口与连结性问题，输出优先排序报告至 `brainstorming/health/` |
| `/thinking-partner` | 协作思考——搜寻 vault 中的相关笔记、提出厘清问题，帮你深度探索复杂问题 |
| `/write-partner` | 写作探索——找出 vault 中的相关内容、反例与开放问题，帮你在动笔前把想法挖得更深 |
| `/braindump` | 把对话沉淀成可复用的素材——问答记录、文章草稿，或两者都要——存至 `brainstorming/chat/` |

## 编译如何运作

```
1. 你把一个档案放进 raw/articles/
2. 执行 /compile
3. LLM 读取档案，判断 origin（external vs. self）
4. 在 wiki/summaries/ 生成摘要，包含：
   - 核心结论
   - 关键证据
   - 疑点
   - 术语
5. 把在 2 个以上摘要中出现的概念提取至 wiki/concepts/
6. 更新 wiki/indexes/（All-Sources.md、All-Concepts.md）
```

每个概念条目把**你的实践**与**外部观点**分开，并有专门的**张力与缺口**段落。这是核心知识价值所在——你的经验与研究并排存在，矛盾被浮现出来，而不是被掩盖。

## 一个实际例子

假设你读到一篇谈「AI 怎么改变学生提问能力」的文章，这套系统会这样运作：

### 第一步：捕捉

你先把文章存进 `raw/articles/20260404 AI改变学生提问能力.md`。这一步只做收集，不需要先分类、摘要，或决定它跟哪个主题有关。

### 第二步：编译

等你累积了几篇相关文章，再执行 `/compile`。系统会：

1. 读取 `raw/` 里的新档案
2. 生成摘要，存到 `wiki/summaries/AI改变学生提问能力.md`，内容包含核心结论、关键证据与疑点
3. 提取概念；如果 `wiki/concepts/提问能力.md` 还不存在，就建立一份，若已存在就更新它，把这篇新来源纳入
4. 更新索引，让 `wiki/indexes/All-Sources.md` 多出一笔纪录

### 第三步：问答

之后某天你想写一篇文章，使用 `/write-partner`：

> AI 辅助教学到底是增强还是削弱了学生的提问能力？研究怎么说？我自己的课堂经验又怎么说？

系统会：

- 翻 `wiki/summaries/` 找外部研究与相关摘要
- 翻你放在 `artifacts/` 里的文章、教学记录或其他实践素材，找出你自己的经验
- 使用 `/braindump`把整理过的推理过程与结论存到 `brainstorming/chat/`

### 第四步：产出

你根据这些资料写出一篇文章，存回 `artifacts/`。下次编译时，这篇文章也会被摘要；但因为它是你的作品，系统会用偏向「你的主张」与「实践经验」的格式来整理，而不只是把它当成外部来源做一般摘要。


## 为什么我最后变成这样做

我最早用 Google Docs 写东西，几乎没有结构想到什么写什么，反正就打关键字搜寻。后来接触到第二大脑与 Tiago Forte 的 CODE 方法，我以为问题在于自己还不够会整理；结果真正耗掉时间的，反而是分类、资料夹、Tag 这些组织工作。等我把系统想清楚，已经没有力气读书、思考或写出自己的东西。

NotebookLM 出现之后，我以为「不要整理，全部交给 AI」。但很快就发现，没有可累积的记忆或是反复的上传跟整理资料夹，我依然没有把时间花在思考
，知识没有真正内化。

所以我把系统换成四层：`raw/` 放原始资料、`wiki/` 放 LLM 编译后的摘要与概念、`brainstorming/` 放与 AI 的探索纪录、`artifacts/` 放自己的成品。表面上看起来比以前更严谨，但实际上我真正碰的主要只有两层：把灵感丢进 `raw/notes/`，把完成的文章放进 `artifacts/`。中间的整理、连结、概念提取，交给 AI 去做。

也正是在这一步，我才第一次感受到这种系统的价值。AI 不只是替我做摘要，而是能把不同文章里反复出现、却从来没有被我并排思考过的概念抽出来，重新编成脉络。像 High Agency 这类想法，我明明在很多来源都碰过，却从来没有自己把它们连在一起。这种跨来源的概念编译，是我手动很难稳定做到的事。

但换了几次系统之后，我也慢慢确定：真正的问题从来不只是工具。以前用第二大脑摩擦力（或努力）来自整理本身；每则笔记都要归类、命名、搬到对的位置。那很烦，但也逼你重新接触材料。现在整理交给 AI，摩擦力没有消失，只是换了形式。它变成对话里那些你答不上来的问题、那些被指出的矛盾、那些你以为想清楚其实还没有的地方。以前是一个人安静地重读材料，现在是透过对话被迫澄清自己的想法。

所以这个 repo 最后想保留的，不是某一套完美分类法，而是一个比较耐用的知识流：原始灵感持续进入 `raw/`，编译后的理解沉淀到 `wiki/`，探索过程留在 `brainstorming/`，真正重要的产出落到 `artifacts/`。工具会一直换，流程也会一直改，但只要你的笔记和作品还在，系统就没有白做。

## 自订

参阅 [docs/customization.md](docs/customization.md) 了解如何：

- 更改编译输出的语言
- 在 `artifacts/` 下新增特定领域的子资料夹
- 自订摘要和概念条目的段落标题
- 为你的领域调整系统

## 致谢

架构灵感来自 [Andrej Karpathy 的 LLM 知识库概念](https://x.com/karpathy/status/2039805659525644595)及[Andrej Karpathy 的 想法文件](https://gist.github.com/karpathy/442a6bf555914893e9891c11519de94f)。原始实作与编译工作流程由 [@gatelynch](https://github.com/gatelynch)与 [@claude](https://github.com/claude) 完成。

## 作者

**gatelynch** — [GitHub](https://github.com/gatelynch) · [Facebook](https://www.facebook.com/gatelynch/) · [Email](mailto:gatelynch@gmail.com)

## 授权

MIT