项目名称:实时处理平台(2017.05-2017.11)
开发环境:Eclipse、JDK1.7
主要技术:Log4j、Flume、Kafka、Storm、Mysql、Hbase
项目介绍:
监控比价项目中爬虫的爬行能力、每天的抓取数量、抓取一个网站需要的时间、还
有抓取失败的商品数据等指标信息,项目中使用Flume、Kafka、Storm实现一个流式处理
平台。
项目主要分5个模块:日志数据收集层、数据缓存层、数据处理层、指标展现层、
数据备份层。
1、日志数据收集层:在每台爬虫机器上部署一个Flume Agent,负责采集爬虫日志
信息,并发送给Kafka集群。
2、数据缓存层:使用Kafka接收Flume的日志信息并缓存,等待Storm处理。
3、数据处理层:主要是Storm实现,对日志信息处理,统计关键性指标做汇总,定时的存入MySql中,供Web界面统计出图表。
4、指标展现层:主要使用Echarts出图表。
5、数据备份层:目的是对爬虫的原始数据进行备份。
项目问题:
Storm重复消费数据问题,Storm和Kafka整合log4j实现冲突问题,为了提高Storm Bolt并行度在最终汇总出现数据不一致问题,使用zookeeper分布式共享锁解决。
职责描述:负责平台环境搭建,编写Storm代码统计具体的指标存入Mysql。
点击空白处退出提示
评论