# fagougou 闫闻智张涵博 **Repository Path**: fagg-intern/fagougou-internship ## Basic Information - **Project Name**: fagougou 闫闻智张涵博 - **Description**: 实习项目三:pdf转word - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-25 - **Last Updated**: 2025-07-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README The repository appears to be primarily focused on converting PDF files into various formats, extracting content, and processing data. Based on the structure and naming of files and directories, here is an overview of the project: --- ## fagougou 闫闻智张涵博 ### 介绍 这是一个用于处理 PDF 文件的项目,支持将 PDF 转换为图像、Word 文档等格式,并提供 OCR、数据清洗、模板渲染等功能。项目中包含多个 Python 脚本,分别负责不同的任务,如 PDF 转图像、OCR 识别、与大语言模型(LLM)交互、生成 HTML 模板等。 ### 软件架构 项目主要由以下几个模块组成: - **PDF 转换模块**:使用 Poppler 工具将 PDF 文件转换为图像。 - **OCR 模块**:识别图像中的文本内容。 - **LLM 模块**:与大语言模型交互,用于数据理解和生成。 - **数据清洗模块**:清理和整理识别后的文本数据。 - **模板渲染模块**:使用 HTML 模板生成最终输出。 - **Word 文档生成模块**:将处理后的数据输出为 Word 文档。 ### 安装教程 1. 安装 Python 3.12 或更高版本。 2. 创建并激活虚拟环境: ```bash python -m venv .venv source .venv/bin/activate # Linux/macOS .venv\\Scripts\\activate # Windows ``` 3. 安装依赖: ```bash pip install -r requirements.txt ``` 4. 下载并安装 Poppler(用于 PDF 转图像): - Windows: 使用 [poppler-windows](https://github.com/oschwartz106/poppler-windows/releases/)。 - Linux: 使用 `sudo apt install poppler-utils`。 - macOS: 使用 `brew install poppler`。 ### 使用说明 1. 将 PDF 文件放入 `input` 目录。 2. 运行 `pdftoimg.py` 将 PDF 转换为图像: ```bash python pdftoimg.py ``` 3. 使用 `OCR.py` 提取图像中的文本: ```bash python OCR.py ``` 4. 使用 `llm.py` 与大语言模型交互,处理提取的文本: ```bash python llm.py ``` 5. 使用 `clean.py` 清洗数据: ```bash python clean.py ``` 6. 使用 `sheet_final.py` 生成最终输出: ```bash python sheet_final.py ``` 7. 使用 `word.py` 生成 Word 文档: ```bash python word.py ``` ### 参与贡献 1. Fork 本仓库。 2. 创建新分支(`git checkout -b feature/xxx`)。 3. 提交代码(`git commit -am 'Add some feature'`)。 4. 推送分支(`git push origin feature/xxx`)。 5. 创建 Pull Request。 ### 特技 - 支持 PDF 到图像的批量转换。 - 使用 OCR 技术自动识别图像中的文本。 - 利用 LLM 进行数据理解和结构化输出。 - 支持将处理结果输出为 Word 文档。 - 使用 HTML 模板进行数据渲染。 --- 如需更详细的文档或特定模块的说明,请提供具体需求。