# agent_crawl **Repository Path**: buptlee/agent_crawl ## Basic Information - **Project Name**: agent_crawl - **Description**: 反爬代理 - **Primary Language**: Go - **License**: Not specified - **Default Branch**: dev - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2016-05-12 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README #agent_crawl 简介: 根据反爬方法,主要有以下反反爬措施 反反爬策略: 1、随机ua标记: 防止通过记录客户端ua信息反爬 解决办法: 伪装浏览器的user agent Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0) Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2) Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1) 2、禁用cookie: 第一种是用户登录情况下 需要保存用户cookie 此时ua信息也要保存固定 第二种是非用户登录情况下 防止通过记录用户cookie反爬 解决办法: 禁用cookie 同时配合随机ua标记 3、随机IP代理: 防止通过屏蔽IP段反爬 4、随机访问延迟: 防止通过统计访问间隔反爬 服务接口设计: 服务接口应该是一个下载器 可以选择设置三种服务(cookie&ua、IP代理、随机访问) 同时,在这优化一下并发多链接 回退策略: cookie&ua无成本,每次回退都要随机更换 IP只对接口设置启用IP代理的随机更换,并对失效IP标记,标记多次的移除IP池 安装使用: 依赖: go get github.com/alphazero/Go-Redis go get github.com/coocood/jas 安装: go get git.oschina.net/buptlee/agent_crawl