1. 项目主要分为5个模块,基于Scrapy框架的engine引擎,scheduler调度器,downloader下载器,spider爬虫,item pipeline数据管道,可以帮助使用者: a.爬取数据,进行市场调研和商业分析 b.作为机器学习、数据挖掘的原始数据 c.爬取各种资源(包括图片、文本、视频等)
2. 整个项目都是我个人独立开发完成的,用到的技术栈主要是基于Scrapy框架衍生的一系列技术,目前已完成累计200多家商业网站的数据分析,提取,处理,清洗工作。实现逻辑是:a.当SPIDER要爬取某URL地址时,使用该URL构造一个REQUEST对象,提交给ENGINE b.request对象随后进入scheduler按某种算法(CFQ)进行排队,出队,送往DOWNLOADER c.downloader根据request对象中的URL地址发送一次HTTP请求到网站服务器,用http响应构造Response对象,其中包含页面的HTML文本 d.response对象递送对spider页面解析函数进行处理,提取数据,封装成item提交给engine,进一步送往item p