# spider **Repository Path**: yancc_li/spider ## Basic Information - **Project Name**: spider - **Description**: 爬虫模板 - **Primary Language**: Java - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2016-07-01 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #spider 爬虫模板
**目前分为两部分:**
1、实现ValueProcessor接口
1. matchTactics 定义匹配规则可以是正则也可以是字符串匹配,根据实现接口是指定的泛型类型确定
2. processor 匹配结果处理
2、Spider是爬虫的具体执行逻辑
**demo:**
``` //30个线程按照ListPageProcessor的实现依据listPageSplider规则对urlQueue进行并发爬取结果存入listPageDate中--列表页 ### Spider.create(new ListPageProcessor(), listPageDate, listPageSplider).runReptile(urlQueue, 30); ```
============================
后期加入代理、http统一配置