# crawler **Repository Path**: phao97/crawler ## Basic Information - **Project Name**: crawler - **Description**: Node.js 实现的小爬虫 - **Primary Language**: NodeJS - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-04 - **Last Updated**: 2023-04-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # crawler #### 介绍 node.js实现的小爬虫 爬取了慕课网免费课程最新、最热、微课类别第一页的课程列表数据, 以及课程列表里对应课程的详情页面数据,生成文件存放在本地。 demo文件夹内是基础的爬虫实现案例 index.js是实现该项目的文件 mock文件夹是生成的数据文件 该项目爬取数据时间大概在2分钟内,爬取的详细过程会在控制台打印。 获取到的数据存放在本地文件内的排版不利于观看,进行下格式化代码即可。 因为慕课网的页面结构以后可能会发生改动,当其页面结构改动将导致该项目无法正常运行。 (2020,0406亲测可用) #### 使用说明 1. 通过git clone 'xxx'把项目克隆到本地 2. cd到项目文件夹内执行npm install安装依赖 3. 最后用node index运行项目 #### 存在问题 1. 请求有时候会报错,中断。 2. 获取的数据偶尔出现课程数据重复的问题 #### 可尝试的解决方法 1. 换个好点的网络环境,把mock文件夹删除了再次运行项目。