# sali_table_extract **Repository Path**: salierime/sali_table_extract ## Basic Information - **Project Name**: sali_table_extract - **Description**: 非结构化数据转文本。 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-03-22 - **Last Updated**: 2025-03-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: AI ## README # 01_picture_ocr 做纯图像提取文字。 更优秀组件推荐:https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file # 01_tablestructure_ocr_recognition 面向图片转文本场景。 Step1: 本地应用结构识别模型,在图片中标记出单元格。 Step2: 本地应用OCR模型,在图片中标记出文本。 Step3: 对标记的单元格和文本进行校准、拼接坐标。 Step4: 输出识别的文本。 # 02_pdf_2_markdown 面向pdf转markdown场景,基于接口调用多模态LLM(如qwen-vl)。参考源码地址: https://github.com/CosmosShadow/gptpdf/ 不足点:对pdf文档解析是通过fitz库解析的,它对标准pdf解析效果较好。如果pdf是图片转过去的或图片扫描的,它会将其视作图片,不做文本化处理, # 03_html_2_text 面向从html提取文本场景。 本地基于ollama启动reader-lm:1.5b,然后调接口从html中解析出纯净的text ```shell ollama run reader-lm:1.5b ``` # 04_picture_2_text 图片转文本。应用MiniCPM-V模型。参考资料: https://modelbest.feishu.cn/wiki/LZxLwp4Lzi29vXklYLFchwN5nCf 也可以将pdf转成多张图片,批量传给minicpm做pdf问答。 ```shell ollama run minicpm-v ```