项目整体采用基于spring cloud的微服务架构,分为分布式爬虫系统、数据处理系统、数据分析系统和Saas平台几个独立的子系统,各子系统通过消息中间件kafka相互通信。
爬虫系统:爬虫系统分为淘宝爬虫、京东爬虫及小红书爬虫,根据数据来源相互独立,爬虫系统采用分布式架构,通过java 线程池实现多任务同时进行,单个爬虫每秒可处理2000+的http请求,数据根据需要直接写入阿里云tablestore库或者kafka消息系统。采用分布式架构保证了爬虫能够很方面的进行扩展。
数据处理系统:数据处理系统分为实时处理和离线处理,实时处理通过Flink读取kafka数据流实时计算商品的销量数据,离线处理根据业务特点通过Hive写查询语句对存储在hbase中的数据就行计算。
数据分析系统:一个独立的springboot项目,整合来自于数据库Hbase、tablestore及ES的数据,生成分析报表,并推送都前端mysql 库,用于saas平台展示。
点击空白处退出提示
评论