# smart-extractor **Repository Path**: os-lee/smart-extractor ## Basic Information - **Project Name**: smart-extractor - **Description**: smart-extractor - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-05-10 - **Last Updated**: 2025-05-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # smart-extractor ## 项目简介 智能文本抽取平台,支持多种抽取器类型(如 Med 和 Apryse),可将文件转换为 Markdown 或 PDF 格式。 **当前功能包括:** - 文件上传与任务创建 - 获取任务状态与队列信息 - 下载处理后的结果文件 - 获取可用抽取器类型列表 --- ## 部署方式 支持以下部署方式: - **Docker** - **Docker Compose** - **Kubernetes (推荐)** - 使用 `kubectl` 和 `Helm` 进行部署管理 --- ## 抽取器支持 ### Med - **支持格式**:PDF、图片、Word、PPT、Excel、Notebooks、代码片段等 - **输出格式**:Markdown - **描述**:支持多种文件格式转换为 Markdown 文本,适用于内容提取和结构化处理。 ### Apryse - **支持格式**:扫描件 PDF(含 OCR) - **输出格式**:PDF(标准可编辑 PDF) - **描述**:针对扫描版 PDF 进行识别与转换,输出为标准 PDF 格式,便于后续处理和使用。 --- ## 接口文档 [智能抽取.openapi.json](..%2Fdocs%2F%D6%C7%C4%DC%B3%E9%C8%A1.openapi.json) ## 构建镜像 --- git pull docker stop $(sudo docker ps -q) docker rm $(sudo docker ps -a -q) # docker rmi -f $(docker images -q) docker build --build-arg ENV_NAME=test --build-arg PORT=9000 -t smart-extractor:v1 . docker run -d \ -p 9000:9000 \ -v /zzsn/smart-extractor/PDFNetC/Lib:/workspace/PDFNetC/Lib \ -v /zzsn/smart-extractor/logs:/workspace/logs \ -v /zzsn/smart-extractor/file:/workspace/file \ -v /zzsn/smart-extractor/smart-controller/config.yaml:/workspace/config.yaml \ -v /zzsn/smart-extractor/smart-extracor-apryse/config.ini:/workspace/smart-extracor-apryse/config.ini \ -v /zzsn/smart-extractor/smart-extracor-med/config.ini:/workspace/smart-extracor-med/config.ini \ -v /etc/localtime:/etc/localtime:ro \ -e PORT=9000 \ --name app \ smart-extractor:v1 docker logs -f app ---