该系统用于盘点公司数据资产,主要是基于apache atlas进行了二开
1.针对于hive,spark,flink等任务添加了hook/listener抓取任务信息和状态到kafka
2.针对平台调度进行埋点推送数据到kafka
3.异步处理kafka任务时间,并存储任务信息用于分析任务血缘,从而实现包括:字段级/标级血缘分析,任务影响分析,智能调度分析,数仓质量评估等系统功能
4.扫描各数据库schema信息(包括关系型数据库,非关系型数据库,hive等主流数据库),开发数据地图模块。帮助快速找表找字段,分析存储信息
5.数据模型管理,本功能按照规范的ods,dim,dwd,ads的数仓建设流程,对数仓模型,主体与,业务过程进行管理
6.码值管理,指标定义管理
7.数据安全性管理,数据分层,分类,分级,帮助企业管理数据