# crawler

**Repository Path**: phao97/crawler

## Basic Information

- **Project Name**: crawler
- **Description**: Node.js 实现的小爬虫
- **Primary Language**: NodeJS
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-04-04
- **Last Updated**: 2023-04-09

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# crawler

#### 介绍
node.js实现的小爬虫

爬取了慕课网免费课程最新、最热、微课类别第一页的课程列表数据，  
以及课程列表里对应课程的详情页面数据，生成文件存放在本地。

demo文件夹内是基础的爬虫实现案例  
index.js是实现该项目的文件  
mock文件夹是生成的数据文件

该项目爬取数据时间大概在2分钟内，爬取的详细过程会在控制台打印。  
获取到的数据存放在本地文件内的排版不利于观看，进行下格式化代码即可。  
因为慕课网的页面结构以后可能会发生改动，当其页面结构改动将导致该项目无法正常运行。  
(2020,0406亲测可用)

#### 使用说明

1.  通过git clone 'xxx'把项目克隆到本地
2.  cd到项目文件夹内执行npm install安装依赖
3.  最后用node index运行项目

#### 存在问题

1.  请求有时候会报错，中断。
2.  获取的数据偶尔出现课程数据重复的问题

#### 可尝试的解决方法

1.  换个好点的网络环境，把mock文件夹删除了再次运行项目。