# crawl_web

**Repository Path**: maruixue/crawl_web

## Basic Information

- **Project Name**: crawl_web
- **Description**: Scrapy抓取豆瓣图书
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2021-09-10
- **Last Updated**: 2021-09-10

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 介绍

这个项目主要用Scrapy抓取目标网站，每个目录下都抓取特定的网站。由于网站类型不同，因此每个特定的spider都有不一样的功能，不同的配置，不同过滤数据的方式。当然了，参照这个仓库的例子，你完全可以定制你自己的爬虫，抓取你自己想要的网站。

___

# 版本

下面，是我写这个项目时用到的版本：

Python : **2.7.12**

Scrapy : **1.1.0**

numpy : **1.11.1**


# 运行爬虫

**对应的目录有相应的运行说明**

# 高级特点

1. 代理IP抓取目标网站
2. 定制自己的请求客户端
3. 一个项目下的pipelines只过滤相应的Item

## 尾言

这个项目只是一个开始，还有非常多要完善的地方。如果大家对这个项目有兴趣的话，可以联系我，我们一起完善这个项目。