# Info Extraction **Repository Path**: weihai/Info-Extraction ## Basic Information - **Project Name**: Info Extraction - **Description**: (1) Email classify. (2) Key info extraction. - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2013-10-16 - **Last Updated**: 2020-12-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 中文邮件语料库 [中文邮件语料库,垃圾[spam]和非垃圾邮件[ham]两类,共64000多封](https://drive.google.com/file/d/0B9hpA3q8NZ1TNWdHWEYzcU1lRmM/edit?usp=sharing)
## 工作分配【2013-12-10】 1. 邮件收集和预处理 2. 中文分词/数据集提供/理论 3. 算法实现(决策树ID3,C4.5) ## 邮件分类相关资源,了解邮件分类的现状和各种方法 1.[邮件分类笔记,右下角可下载](https://drive.google.com/folderview?id=0B9hpA3q8NZ1TUjIwd3gwczh1TzA&usp=sharing)
## Project Goal—— Machine Learning & Data Mining (1) 邮件分类:根据收发件人|主题|是否有附件对用户邮件简单分类,例如用户想把发件人为A的所有邮件归到一个文件夹中; 复杂点就是用户想把邮箱中那些所有关于商品广告或推荐的邮件拿出来,这里就不是单一的收发件人或主题可以分类的, 需要我们学习商品广告邮件的特征,才能把目标邮件抽取出来; (2) 信息提取:有了上一步的基础,我们要对特定分类的邮件进行关键信息提取,例如某邮件包含用户订购机票的订单号和 航班信息,我们如何正确提取这些信息,帮助用户节省阅读邮件的时间。 (3) 考虑做桌面或手机应用,真正帮助用户管理和阅读邮件,这里可能要用到GAE的开放接口。 ... Hints:可能要修改主题为 我的资料/主题/Motokai 后,上面才能显示正确。 ## Process Image The architecture diagram is as below: ![ScreenShot](/images/architecture.jpg) The classify process: ![ScreenShot](/images/classify.jpg) ## Resources 1.[关于如何使用git的教程,git是团队项目开发的一个工具](http://git.oschina.net/oschina/git-osc/wikis/Home)
2.[关于邮件分类的论文](http://wenku.baidu.com/view/0a3cf662a8956bec0975e3e3.html)
3.[初始想法](https://docs.google.com/document/d/1hRC4F8vsqwHHdG_U8UZLG2PqQzBghbwHl2Hs8ilpzZk/edit)
4.[Google大脑背后的X教授:Andrew Ng,Stanford机器学习神人](http://cs.stanford.edu/people/ang/)
## Directions > images: 放项目的一些图片或表格等;
> sandbox: 沙箱,自己每次做一些测试脚本或程序可以放在这里等;
> classify: 邮箱分类算法的程序库;
> info-extracion: 关键信息提取算法的程序库;
## Members Weihai: [https://github.com/leonee](https://github.com/leonee)