数据中台/数据湖产品系统

我要开发同款
全栈小李2026年05月25日
11阅读

技术信息

语言技术
JavaKafkaHadoopSpringDubbo
系统类型
Web
行业分类
物联网

作品详情

行业场景

1、立项原因,要解决什么产品问题

项目立项的核心原因是企业内部存在多类异构数据源,主要包括 MySQL 中的业务数据,以及 InfluxDB 中的时序数据、设备数据或指标数据。不同数据源的数据结构、查询方式、存储模型都不一样,原有方式通常需要针对每个数据源单独开发采集、同步和查询逻辑,导致数据接入成本高、数据口径不统一、治理困难,后续做统计分析、实时计算、离线分析和报表开发时效率较低。

因此项目需要建设一套数据集成与数据治理平台,将 MySQL、InfluxDB 等外部数据源统一接入,并通过 NiFi、Flink 等组件完成数据采集、同步、清洗和处理,最终将数据沉淀到基于 Hadoop/HDFS + Iceberg 的数据湖中。这样可以把分散在不同系统里的业务数据和时序数据统一管理,为后续数据查询、数据分析、数据建模、数据质量治理和数据资产管理提供统一的数据底座。

2、行业场景、业务背景

该项目属于企业级数据集成、数据湖建设和数据治理场景,适用于存在多个业务系统、多个数据库以及大量时序数据的企业。例如在 IoT、工业设备、能源监控、运维监控、业务运营分析等场景中,业务系统通常会把用户、产品、订单、设备档案、规则配置等结构化数据存储在 MySQL 中,而设备上报数据、监控指标、运行状态、传感器数据等高频时序数据则存储在 InfluxDB 中。

功能介绍

项目核心功能包括数据源管理、元数据管理、数据集成与入湖、SQL 作业、任务管理和数据服务。

数据源管理用于统一维护 MySQL、InfluxDB 等外部数据源的连接配置,支持数据源新增、编辑、连接测试、启用禁用和状态查看。

元数据管理用于管理接入数据的库表结构、字段信息、字段类型、数据来源、更新时间以及 Iceberg 表结构,方便平台识别和管理数据资产。

数据集成与入湖是平台核心能力,支持将 MySQL 中的业务数据和 InfluxDB 中的时序数据进行采集、同步、字段映射、格式转换和清洗处理,并最终写入基于 Hadoop/HDFS + Iceberg 的数据湖中,实现异构数据的统一沉淀。

SQL 作业模块支持通过 Flink SQL 编写数据处理逻辑,用于对入湖数据或流式数据进行清洗、转换、聚合和加工,支持 SQL 作业的创建、编辑、提交、停止和运行状态查看。

任务管理模块用于统一管理数据同步任务、数据入湖任务和 SQL 作业任务,支持任务启动、停止、重启、执行状态查看、运行日志、失败原因查看和异常排查。

数据服务模块用于将数据湖中的数据封装成 API 服务,对外提供统一的数据访问能力,支持接口配置、请求参数配置、返回字段配置、接口测试、启用禁用、权限控制和调用日志查看,方便业务系统、报表系统和数据看板直接调用。

项目实现

1、“我”负责哪些具体任务?

我主要负责数据集成平台中数据源管理、数据集成、SQL 作业和任务管理相关模块的设计与开发。

在数据源管理模块中,负责 MySQL、InfluxDB 等数据源的配置信息维护,包括数据源新增、编辑、删除、连接测试、启用禁用、连接参数校验等功能,为后续数据采集和入湖任务提供统一的数据源配置能力。

在数据集成模块中,负责基于 NiFi 对数据采集流程进行管理,将 MySQL 业务数据和 InfluxDB 时序数据接入平台,通过配置化方式管理数据流转流程,支持数据采集、字段映射、数据转换、任务启动停止和运行状态查看,为数据入湖提供基础能力。

在 SQL 作业模块中,负责 Flink SQL 作业相关功能开发,支持用户通过 SQL 的方式编写数据处理逻辑,实现对数据的清洗、转换、聚合和加工处理。模块支持 SQL 作业创建、编辑、提交、停止、状态查看和执行结果管理。

在任务管理模块中,负责接入 XXL-JOB 实现任务调度能力,对数据集成任务、数据入湖任务和 SQL 作业任务进行统一调度和管理,支持任务启动、停止、定时执行、执行日志查看、失败原因记录和任务状态维护。

2、项目使用了哪些技术栈、架构,实现上亮点、难点?

项目采用 Spring Boot 微服务架构,结合 MySQL、Redis、NiFi、Flink SQL、XXL-JOB、Hadoop/HDFS、Iceberg、InfluxDB 等技术实现企业级数据集成与数据入湖能力。

架构上,平台通过数据源管理模块统一维护外部数据源配置,通过 NiFi 管理数据采集和流转流程,通过 Flink SQL 实现数据清洗、转换和计算处理,通过 XXL-JOB 统一调度数据同步、入湖和 SQL 作业任务,最终将 MySQL、InfluxDB 等外部数据源的数据处理后写入 Hadoop/HDFS +

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论