数据湖产品系统

我要开发同款
null2026年04月08日
7阅读

技术信息

语言技术
ShellHDFSScala
系统类型
Linux
行业分类
金融

作品详情

行业场景

基于Hadoop技术体系搭建数据湖,实现结构化数据、半结构化数据、非结构化数据、外部数据和归档数据的集成管理,具体包括:
1. 改造离线数据存储系统为子系统,提供结构化数据、半结构化数据和外部数据的集成和计算服务。将已有的基于hdfs文件的服务方式替换为基于hive表的服务方式,为全行系统提供统一的集成计算服务,提供统一的开发规范、任务调度服务和运维监控服务,并逐步沉淀基于贴源数据的共性加工层。
2. 新建数据归档子系统,联合离线数据存储系统子系统为全行业务系统(尤其是数据应用类系统)提供统一的数据归档服务,逐步替代已有的磁带归档方式,提升归档数据查询效率,盘活归档数据价值;
3. 新建非结构化数据管理子系统,为全行提供基于非结构化数据的集成和计算服务(待定?)
4. 联合数据分析云平台为全行的数据分析人员提供自助分析和数据挖掘服务,扩大分析人员可使用的数据范围和数据周期,减轻数据仓库压力。
5. 完善离线数据存储系统的环境配置(python运行环境、与python版本兼容的spark环境以及其他常用的算法包),支持批量数据服务的数据挖掘模型部署 。

功能介绍

此平台分为两大部分,数据湖系统和大数据研发平台。数据湖系统为实现全行贴源数据(结构化、
非结构化、半结构化、外部数据和实时数据)和归档数据的集成管理,缩短数据加工路径,提升需求响应效
率。大数据研发平台为面向大数据开发工程师建设的一站式研发平台,以可视化拖拽式开发的方式,满足数
据开发测试、调度配置、元数据管理等应用场景

项目实现

:1.贴源数据入湖的开发工艺标准化,配套工具开发设计,以提升数据入湖的质量和效率 2.数据湖
归档子系统底层存储改造、历史数据迁移 3.数据湖核心程序开发、优化及维护及应用数据加工 4.总行 ODS
系统管理及运

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论