上海新朋联众汽车零部件有限公司-离线数仓建设

技术选型： hive on spark+hadoop2.7+sqoop1.4+oracle11g+mysql5.7+DolphinScheduler+Superset
项目描述：建设离线数仓，对业务数据进行整合，按照产品、客户、供应商、成本、员工、回访、运营等模块
按照各个维度进行分析。
ODS 层
数据内容：ERP、财务总账、数字人力(人力资源管理系统) 、MES(车间管理系统) 、SRM(供应
商管理系统)、PLM(产品生命周期管理系统) 等系统同步采集
数据来源：使用 Sqoop 从 Oracle 中同步采集
存储设计：Hive 分区表，avro 文件格式存储，保留 3 个月，采用压缩比较高的 gzip
DWD 层
数据内容：存储所有业务数据的明细数据 (构建事实表)
数据来源：对 ODS 层的数据进行 ETL 解决一些数据质量问题和数据的完整度问题
存储设计：Hive 分区表，orc 文件格式存储，保留所有数据，采用 snappy 压缩
DWS 层
数据内容：存储所有事实与维度的基本关联、基本事实指标等数据构建客户主题、供应商主题、
产品主题、市场主题、运维主题、工单主题、不良品主题、回访主题、费用主题、派单主题
数据来源：对 DWD 层的数据进行清洗过滤、轻度聚合以后的数据
存储设计：按照统计周期进行分区，orc 文件格式存储，保留所有数据
ST 层
数据内容：存储所有报表分析的事实数据
数据来源：基于 DWB 和 DWS 层，通过对不同维度的统计聚合得到所有报表事实的指标
DM 层
数据内容：存储不同部门所需要的不同主题的数据
数据来源：对 DW 层的数据进行聚合统计按照不同部门划分
DIM 层
数据内容：存储所有业务的维度数据：日期、地区、用户、产品、机构、供应商信息等维度表
数据来源：对 DWD 的明细数据中抽取维度数据
存储设计：Hive 普通表，orc 文件 + Snappy 压缩+全量采集
个人职责：1.负责将存储在关系型数据库中的业务系统数据导入 hdfs 上。
2.根据原始数据表，批量创建 hive 表，设置分区、存储格式。
3.根据业务关联关系以及分析指标，建立数仓模型。
4.实现数据模型中的各个数仓分层的数据建模，建表。
5.负责实现每个分层的数据抽取、转换、加载。
6.负责编写 shell 实现 sqoop 脚本批量导入数据。
7.负责编排 sqoop 导入数据的任务调度。
8.负责使用 sparksql 进行数据应用层指标进行分析。
9.解决项目中 ThriftServer 资源不足 GC 问题、ThriftServer 单点故障、数据倾斜、数据采集不
一致等突发问题。
10.对集群中资源优化与代码开发优化。

上海新朋联众汽车零部件有限公司-离线数仓建设

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐