# GenMLTData **Repository Path**: milixiang/GenMLTData ## Basic Information - **Project Name**: GenMLTData - **Description**: 用于合成多语种ocr数据 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2021-08-17 - **Last Updated**: 2021-08-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # GenMLTOCR #### 介绍 用于合成多语种ocr数据 #### 软件架构 随机选择背景、语料、字体进行合成 #### 示例图片 ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._00.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._01.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._02.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._03.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._04.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._05.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._06.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._07.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._08.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._09.jpg) ![Image](https://gitee.com/hero_wu/GenMLTData/raw/master/demo_data/0/13.35._10.jpg) #### 使用说明 1. 搜集背景图片,放入bg文件夹下,或者使用我处理好的图片:链接: https://pan.baidu.com/s/13eEXMYPqTn7t4MejMzNDQg 密码: w21b 2. 搜集对应语种的字体文件,放入Synthtext/data/font 文件夹下,拷贝之前先删除该文件夹下的所有字体,然后运行Synthtext下的test_font.py,自动删除有问题的字体 3. 生成对应语种的语料文件,示例在Synthtext/data/cn.txt,示例代码在gen_corpus.py中 4. 修改Synthtext/data_cfg.py中的字体、语料文件、背景图片路径 5. 修改cfg.py中的data_dir(合成图片存放的路径),sample_num(合成数据的数量) 6. 运行debug_datagen1.py,检查错误,并根据错误进行修改 7. 运行my_datagen.py开始合成数据 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request