一、 项目架构设计
简介: 基于Python3的scrapy_redis + crawlab框架拓展开发, 适用于芯片行业数据采集的分布式爬虫器
主要模块: settings、 middlewares、 pipelines、 items、 spiders、 tools(共用配置与方法封装器)、 special(特殊处理封装器)、 fileStores(文件储存器)
二、 项目功能与特点
拓展功能: 集合了对接mysql/mongo数据库、 redis缓存与队列、 阿里云OSS文件存储、 代理和识别验证码第三方平台接口等功能
爬虫池: 聚集了芯片行业主要的电商平台和知名品牌官网的爬虫
特点:
1、提供了芯片行业主流网站(Digikey、Mouser、Kynix、Arrow等)数据接口
2、封装了HTML中各种table样式标签的通用方法
3、链接了解决各种验证码的第三方平台接口
4、提供了爬虫脚本通用temp, 可更简洁、快速、清晰开发新spider
三、 crawlab爬虫管理后台搭建
1、集部署、任务调度、任务监控、结果展示等模块于一体的爬虫项目管理系统
2、阿里云centos7 + docker + mongodb、redis
点击空白处退出提示
评论