# crawl_web **Repository Path**: maruixue/crawl_web ## Basic Information - **Project Name**: crawl_web - **Description**: Scrapy抓取豆瓣图书 - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-09-10 - **Last Updated**: 2021-09-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 介绍 这个项目主要用Scrapy抓取目标网站,每个目录下都抓取特定的网站。由于网站类型不同,因此每个特定的spider都有不一样的功能,不同的配置,不同过滤数据的方式。当然了,参照这个仓库的例子,你完全可以定制你自己的爬虫,抓取你自己想要的网站。 ___ # 版本 下面,是我写这个项目时用到的版本: Python : **2.7.12** Scrapy : **1.1.0** numpy : **1.11.1** # 运行爬虫 **对应的目录有相应的运行说明** # 高级特点 1. 代理IP抓取目标网站 2. 定制自己的请求客户端 3. 一个项目下的pipelines只过滤相应的Item ## 尾言 这个项目只是一个开始,还有非常多要完善的地方。如果大家对这个项目有兴趣的话,可以联系我,我们一起完善这个项目。