数据湖_系统开发案例-程序员客栈

技术信息

语言技术
Shell、HDFS、Scala系统类型
Linux行业分类
金融

作品详情

行业场景

基于Hadoop技术体系搭建数据湖，实现结构化数据、半结构化数据、非结构化数据、外部数据和归档数据的集成管理，具体包括：
1. 改造离线数据存储系统为子系统，提供结构化数据、半结构化数据和外部数据的集成和计算服务。将已有的基于hdfs文件的服务方式替换为基于hive表的服务方式，为全行系统提供统一的集成计算服务，提供统一的开发规范、任务调度服务和运维监控服务，并逐步沉淀基于贴源数据的共性加工层。
2. 新建数据归档子系统，联合离线数据存储系统子系统为全行业务系统（尤其是数据应用类系统）提供统一的数据归档服务，逐步替代已有的磁带归档方式，提升归档数据查询效率，盘活归档数据价值；
3. 新建非结构化数据管理子系统，为全行提供基于非结构化数据的集成和计算服务（待定？）
4. 联合数据分析云平台为全行的数据分析人员提供自助分析和数据挖掘服务，扩大分析人员可使用的数据范围和数据周期，减轻数据仓库压力。
5. 完善离线数据存储系统的环境配置（python运行环境、与python版本兼容的spark环境以及其他常用的算法包），支持批量数据服务的数据挖掘模型部署。

功能介绍

此平台分为两大部分，数据湖系统和大数据研发平台。数据湖系统为实现全行贴源数据（结构化、
非结构化、半结构化、外部数据和实时数据）和归档数据的集成管理，缩短数据加工路径，提升需求响应效
率。大数据研发平台为面向大数据开发工程师建设的一站式研发平台，以可视化拖拽式开发的方式，满足数
据开发测试、调度配置、元数据管理等应用场景