# sali_table_extract

**Repository Path**: salierime/sali_table_extract

## Basic Information

- **Project Name**: sali_table_extract
- **Description**: 非结构化数据转文本。
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-03-22
- **Last Updated**: 2025-03-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: AI

## README

# 01_picture_ocr
做纯图像提取文字。   
更优秀组件推荐：https://github.com/Ucas-HaoranWei/GOT-OCR2.0?tab=readme-ov-file

# 01_tablestructure_ocr_recognition
面向图片转文本场景。   
Step1: 本地应用结构识别模型，在图片中标记出单元格。   
Step2: 本地应用OCR模型，在图片中标记出文本。    
Step3: 对标记的单元格和文本进行校准、拼接坐标。    
Step4: 输出识别的文本。    

# 02_pdf_2_markdown
面向pdf转markdown场景，基于接口调用多模态LLM(如qwen-vl)。参考源码地址: https://github.com/CosmosShadow/gptpdf/    
不足点：对pdf文档解析是通过fitz库解析的，它对标准pdf解析效果较好。如果pdf是图片转过去的或图片扫描的，它会将其视作图片，不做文本化处理，

# 03_html_2_text
面向从html提取文本场景。    
本地基于ollama启动reader-lm:1.5b，然后调接口从html中解析出纯净的text    
```shell
ollama run reader-lm:1.5b
```

# 04_picture_2_text
图片转文本。应用MiniCPM-V模型。参考资料: https://modelbest.feishu.cn/wiki/LZxLwp4Lzi29vXklYLFchwN5nCf    
也可以将pdf转成多张图片，批量传给minicpm做pdf问答。    
```shell
ollama run minicpm-v
 ```