数据治理基于作业调度与数据处理为一体,分布式调度系统的开发,可以为数据治理提供独立,全面 的任务编排,调度管理,执行管理,监控等功能,为数据治理提供强大的作业调度、作业执行的底层支持。用 于对Oracle、MySQL、SQL Server、GBase、TiDB、Hive、Kafka、GaussDB等多源异构数据的抽取、清洗、整合 以及转换。通过强大的ETL组件管理,算法包管理,实现跨平台数据资源的多源汇聚、快速清洗和数据治理。
负责调度信息的存储、创建、以及修改。包括作业调度周期、并行度、超时时间、作业调度时间等信息的 下发、作业开始、作业停止,并将调度信息缓存到Redis中间件中。 2. 负责数据监控服务,pull 拉取kafka订阅数据信息(包括正确数据量、问题数据量)日志信息,对kafka 消息进行过滤,避免重复消费、数据丢失等问题。最后将消息保存到MySQL中,并组装作业监控数据。错误数据 记录以及错误信息保存到tidb中。 3. 使用任务调度框架quartz保证kafka拉取线程断线重启。 4. 使用flink负责ETL组件开发,数据源组件(kafka输入、json文件读取、mysql读取、Excel文件读取)、 中间清洗节点(数据拆分、数据格转、数据流合并、过滤)、存储节点(kafka 写入、json文件写入)、mysql 存储)等组件的开发并打包上传HDFS分布式文件服务器。
点击空白处退出提示












评论