统一数据平台数仓 ETL 开发项目产品系统

我要开发同款
xyt2026年06月25日
10阅读

技术信息

语言技术
ShellHadooppostgres
系统类型
算法模型
行业分类
金融

作品详情

行业场景

人保集团数字化转型核心项目,原各子公司业务数据分散形成数据孤岛,报表、风控、监管取数效率低下。本项目搭建集团统一数据仓库,整合寿险、养老、风控全量业务数据,为经营分析、客户集市、EAST 监管报送提供统一数据底座。

功能介绍

1、搭建集团域 + 养老子域双层数仓分层模型,完成 ODS 贴源层、DWD 明细层、DWS 汇总层全链路 ETL 开发;
2、实现 Oracle 存量业务向华为 MRS 大数据平台迁移,优化 SparkSQL 解决数据倾斜、任务超时,批处理时长由数小时缩短至半小时;
3、封装通用增量 SQL 模板支撑 PB 级海量数据迁移,编写 Shell 脚本自动化监管报表全流程报送;
4、搭建动静双维度数据校验机制,独立开发养老客户统一视图集市,同时负责平台日常运维、故障处理与项目标准化文档交付。

项目实现

我作为 ETL 开发小组组长,独立负责养老子域、集团 ACRM 与智能风控中间层全流程开发,承接指标迁移、寿险业务改造、养老客户统一视图集市等需求;项目基于华为 MRS 大数据平台搭建分层数仓架构,技术栈使用 Hive、SparkSQL、GaussDB、Oracle、Shell、DataStage;
难点在于 PB 级海量数据迁移、SparkSQL 数据倾斜与批处理慢问题,通过重构 SQL 逻辑、封装通用增量脚本,将多表批任务时长由数小时优化至半小时内;同时编写 Shell 脚本实现监管报表自动化报送,搭建动静结合的数据校验体系保障数据准确,统筹团队完成平台日常运维、故障排查,输出标准化交付文档。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论