1.项目整体分为数据拿取,脏数据去除,去重,入库
2.整个项目当中基本都有涉足,主要在于数据拿取和脏数据去除,数据去重通过数据的md5以及scrapy框架和redis进行去重,采用了scrapy分布式进行爬取数据,最终实现每隔几分钟进行一次更新数据拿取
3.部分网站会有验证码需要解决,通过网上开源代码进行破解以及第三方验证码公司进行破解
点击空白处退出提示
1.项目整体分为数据拿取,脏数据去除,去重,入库
2.整个项目当中基本都有涉足,主要在于数据拿取和脏数据去除,数据去重通过数据的md5以及scrapy框架和redis进行去重,采用了scrapy分布式进行爬取数据,最终实现每隔几分钟进行一次更新数据拿取
3.部分网站会有验证码需要解决,通过网上开源代码进行破解以及第三方验证码公司进行破解
评论