项目描述:从零开始搭建爬虫系统。爬取或接入网银、社保、运营商等数据。系统分为第三方数据接入系统,自有爬虫系统。第三方接入系统包含三个子系统:任务系统、调度系统、对外交互接口。任务系统接收提交的采集任务,生成相应的job。调度系统取出job执行或者通过对外交互接口与第三方系统进行通讯。自有爬虫分为两个子系统:任务系统、采集器。任务系统接收用户提交的采集任务,选择合适的采集器爬取数据。
职责描述:系统架构设计。根据地区、繁忙程度等维度信息选择合适采集器,下发爬取任务。负责项目中部分银行的数据抓取。Kafka推送、回调应用方开发,对接第三方数据形成适配器。OSS存储模块开发。控件探索。
主要技术:Spring、MySQL/MyBatis/Redis/OSS、RocketMQ/Kafka、多线程等。
点击空白处退出提示
评论