为数据平台构建统一的采集服务,针对三大类数据 APP用户行为日志,业务数据,商品数据。其中行为日志通过客户端SDK走http上报至nginx,通过logs'tash发送到kafka,使用FlinkStreaming消费Kafka数据,对数据进行校验和清洗,落地到HDFS以parquet格式存储。对于业务数据(mysql),实时性要求高的数据,通过Canal实时同步BinLog发送到Kafka,供下游消费,非实时性的数据,通过Datax的离线同步到Kafka再到HDFS。对于商品数据,自己封装的SDK,服务端接入SDK,发到KAFKA.,之后通过Flink发送到hdfs,对于落地的HDFS数据,hive建立外部表,进入数仓ODS层。
对于采集系统的各个组件的监控,采用prometheus+grafana方案,触发相关告警到钉钉