基于Hadoop技术体系搭建数据湖,实现结构化数据、半结构化数据、非结构化数据、外部数据和归档数据的集成管理,具体包括:
1. 改造离线数据存储系统为子系统,提供结构化数据、半结构化数据和外部数据的集成和计算服务。将已有的基于hdfs文件的服务方式替换为基于hive表的服务方式,为全行系统提供统一的集成计算服务,提供统一的开发规范、任务调度服务和运维监控服务,并逐步沉淀基于贴源数据的共性加工层。
2. 新建数据归档子系统,联合离线数据存储系统子系统为全行业务系统(尤其是数据应用类系统)提供统一的数据归档服务,逐步替代已有的磁带归档方式,提升归档数据查询效率,盘活归档数据价值;
3. 新建非结构化数据管理子系统,为全行提供基于非结构化数据的集成和计算服务(待定?)
4. 联合数据分析云平台为全行的数据分析人员提供自助分析和数据挖掘服务,扩大分析人员可使用的数据范围和数据周期,减轻数据仓库压力。
5. 完善离线数据存储系统的环境配置(python运行环境、与python版本兼容的spark环境以及其他常用的算法包),支持批量数据服务的数据挖掘模型部署 。
点击空白处退出提示












评论