1、介绍:自主设计和开发的高效爬虫系统,由前端服务、后端管理服务和爬虫调度服务三部分组成,实现了任务管理、任务调度、数据采集、数据清洗和存储、数据下载等功能。
2、主要功能:
1)任务管理:可选择服务,配置单次、定时、间隔、手动调度方式,选择容器或本地环境执行,保存任务配置信息并发布;
2)任务调度:根据任务配置信息进行调度并执行,通过服务管理器初始化任务并启动,通过回调管理端实现任务状态更新;
3)数据采集:可扩展的分布式爬虫系统,可定制化开发任意爬虫,注册到服务管理器后即可经过前端进行任务配置;
4)数据清洗和存储:通用的数据清洗框架,可针对每个任务定制化开发数据清洗任务,并可选多种数据格式进行存储;
5)数据下载:任务批次完成后经清洗后的数据保存在云端,可供随时下载。
点击空白处退出提示












评论