- 主导构建离线数仓,汇集业务联机数据库和终端用户行为日志数据,实际数据过滤、治理、解析、集成、入库。
- 划分主题建设,为公司提供多种报表统计结果和业务系统技术支持。
- 提高数据处理性能,解决数据漂移延迟,实施数据脱敏和解析参数表的构建。
- 设计并维护多层次数仓结构,包括ODS、DIM、DWD、DWS和ADS层,优化数据仓库查询性能。
项目架构:Hadoop + Hdfs+Zookeeper + Mysql + Hive+clinkhouse+ElasticSearch +Azkaban+dataX+Spark+shull
项目流程:
数据采集:
- 使用dataX从业务库同步全量和增量数据。
- 使用flume搭建数据传输网络。
数据分层设计:
ODS层:存储未处理的源数据,保持一致性和追溯性。
DIM层:存储各种维度表,例如药品主数据、地区、生产单位、运力_站点等。
DWD层:清晰、规范化数据、采用维度建模理论。
DWS层:按主题轻度聚合数据,例如单位物资日聚合表,仓库自然月集合表,省市区储备表等。
ADS层:存放重要指标的结果数据,提供数据产品和服务。
报表开发: