该项目是***数据中台组集合了SaaS中台数据,以及emr实操系统基础数据搭建的离线数仓平台。为公司各个业务部门整合一份完整的,高一致性的干净的数据源提供方。为公司管理层,以及相关的产品部门提供有价值的报表以及决策所需相关数据。
1、构建数仓基本模型分层(ODS、DWD、DWS、ADS)处理,使用Python进行脚本书写
2、ODS层主要存放经由Sqoop导入Saas中台部MySQL业务数据以及实操系统业务数据
3、DWD层完成了数据的清洗、脱敏、降维等操作
4、按照雪花模型进行维度建模,设计每一层的表,并针对不同类型的表(实体表、维度表、事实表)设计同步策略
5、通过自定以UDF、UDTF函数完成日志字段的解析
6、基于Hive SQL结合报表业务数据制作流量分配看板,以营期、课程、社群为主题增加报表页面
7、基于Metabase来查询数仓基础数据为财务提供订单明细、分摊收入、预收账款等明细数据
8、后期业务数据冗余进行维度重新整合,模型重新提取后进行口径统一形成迭代之后的宽表
9、整个过程通过使用Azkaban结合每阶段的Python脚本完成任务调度
点击空白处退出提示












评论