大数据治理平台_系统开发案例-程序员客栈

数据治理基于作业调度与数据处理为一体，分布式调度系统的开发，可以为数据治理提供独立，全面的任务编排，调度管理，执行管理，监控等功能，为数据治理提供强大的作业调度、作业执行的底层支持。用于对Oracle、MySQL、SQL Server、GBase、TiDB、Hive、Kafka、GaussDB等多源异构数据的抽取、清洗、整合以及转换。通过强大的ETL组件管理，算法包管理，实现跨平台数据资源的多源汇聚、快速清洗和数据治理。
负责调度信息的存储、创建、以及修改。包括作业调度周期、并行度、超时时间、作业调度时间等信息的下发、作业开始、作业停止，并将调度信息缓存到Redis中间件中。 2. 负责数据监控服务，pull 拉取kafka订阅数据信息（包括正确数据量、问题数据量）日志信息，对kafka 消息进行过滤，避免重复消费、数据丢失等问题。最后将消息保存到MySQL中，并组装作业监控数据。错误数据记录以及错误信息保存到tidb中。 3. 使用任务调度框架quartz保证kafka拉取线程断线重启。 4. 使用flink负责ETL组件开发，数据源组件（kafka输入、json文件读取、mysql读取、Excel文件读取）、中间清洗节点（数据拆分、数据格转、数据流合并、过滤）、存储节点（kafka 写入、json文件写入）、mysql 存储）等组件的开发并打包上传HDFS分布式文件服务器。

大数据治理平台

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐