# tableImageParser **Repository Path**: zuoyuwei/table-image-parser ## Basic Information - **Project Name**: tableImageParser - **Description**: 仿照腾讯图像版面分割的项目方案 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2021-05-07 - **Last Updated**: 2021-12-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # tableImageParser ### 本项目通过腾讯分享文章,复现了腾讯表格结果解析文章地址为https://zhuanlan.zhihu.com/p/69793742 (Table Structure Recognition from Tencent) ## 环境(Requirements) ```pip install -r requirements.txt``` ## 例子🌰(Demo) - 修改inference 中main函数所需路径 ```python inference.py``` ## 训练(train) - 修改train.py 中checkpoint_path 为模型路径 - 修改dataf.py 中training_data_path 为训练数据路径 ```python train.py``` ## 可视化实例 ### 例子🌰1 ![raw](https://github.com/tommyMessi/tableImageParser_tx/blob/master/tx_infer_data/vanke_2016_1241_nb_3.jpg) ![nrow](https://github.com/tommyMessi/tableImageParser_tx/blob/master/tx_infer_data/nrow/vanke_2016_1241_nb_3.jpg) ![ncol](https://github.com/tommyMessi/tableImageParser_tx/blob/master/tx_infer_data/ncol/vanke_2016_1241_nb_3.jpg) ### 例子🌰2 ![raw](https://github.com/tommyMessi/tableImageParser_tx/blob/master/tx_infer_data/1.jpg) ![row](https://github.com/tommyMessi/tableImageParser_tx/blob/master/tx_infer_data/row/1.jpg) ![row](https://github.com/tommyMessi/tableImageParser_tx/tree/master/tx_infer_data/col) ## 更新 8.17 - 修改dataf.py 中的数据预处理,具体效果 根据自己数据进行适量修改。(数据增强对效果还很重要) - 添加post.py 用于后处理的demo。具体思路通过霍夫变换的HoughLinesP函数的线段合集,进行直线断连接修复。 - 预训练模型: 链接: https://pan.baidu.com/s/1JXEKuWYtbyF6vFGQIzyE6g 提取码: 4mbb ## 其他 训练数据与预训练模型 关注微信公众账号 hulugeAI 留言:table parser ## self ## 2021/6/3 训练和测试过程图像结果出现差异的原因在于batch_norm函数中is_training参数的选择 ## 2021/6/8 ## 数据加载过程解析 GeneratorEnqueuer():从数据生成器构建一个数据队列,队列中的每个数据都是一个生成器,生成器返回一定数量数据的列表的列表 ## 2021/6/10 在正式训练之前进行图像处理操作:包括图像的二值化,尺寸限制,BGR to RGB等 ## 2021/6/17 根据两个模型整合输出可见行、可见列、不可见行和不可见列四种结果 ## 2021/11/18 改变resnet50最后一层网络结构,添加一层stride为2的卷积 ## 2021/11/30 修改图像行列分割标签生成程序