数据中台/数据湖_系统开发案例-程序员客栈

技术信息

语言技术
Java、Kafka、Hadoop、Spring、Dubbo系统类型
Web行业分类
物联网

作品详情

行业场景

1、立项原因，要解决什么产品问题

项目立项的核心原因是企业内部存在多类异构数据源，主要包括 MySQL 中的业务数据，以及 InfluxDB 中的时序数据、设备数据或指标数据。不同数据源的数据结构、查询方式、存储模型都不一样，原有方式通常需要针对每个数据源单独开发采集、同步和查询逻辑，导致数据接入成本高、数据口径不统一、治理困难，后续做统计分析、实时计算、离线分析和报表开发时效率较低。

因此项目需要建设一套数据集成与数据治理平台，将 MySQL、InfluxDB 等外部数据源统一接入，并通过 NiFi、Flink 等组件完成数据采集、同步、清洗和处理，最终将数据沉淀到基于 Hadoop/HDFS + Iceberg 的数据湖中。这样可以把分散在不同系统里的业务数据和时序数据统一管理，为后续数据查询、数据分析、数据建模、数据质量治理和数据资产管理提供统一的数据底座。

2、行业场景、业务背景

该项目属于企业级数据集成、数据湖建设和数据治理场景，适用于存在多个业务系统、多个数据库以及大量时序数据的企业。例如在 IoT、工业设备、能源监控、运维监控、业务运营分析等场景中，业务系统通常会把用户、产品、订单、设备档案、规则配置等结构化数据存储在 MySQL 中，而设备上报数据、监控指标、运行状态、传感器数据等高频时序数据则存储在 InfluxDB 中。

功能介绍

项目核心功能包括数据源管理、元数据管理、数据集成与入湖、SQL 作业、任务管理和数据服务。

数据源管理用于统一维护 MySQL、InfluxDB 等外部数据源的连接配置，支持数据源新增、编辑、连接测试、启用禁用和状态查看。

元数据管理用于管理接入数据的库表结构、字段信息、字段类型、数据来源、更新时间以及 Iceberg 表结构，方便平台识别和管理数据资产。

数据集成与入湖是平台核心能力，支持将 MySQL 中的业务数据和 InfluxDB 中的时序数据进行采集、同步、字段映射、格式转换和清洗处理，并最终写入基于 Hadoop/HDFS + Iceberg 的数据湖中，实现异构数据的统一沉淀。

SQL 作业模块支持通过 Flink SQL 编写数据处理逻辑，用于对入湖数据或流式数据进行清洗、转换、聚合和加工，支持 SQL 作业的创建、编辑、提交、停止和运行状态查看。

任务管理模块用于统一管理数据同步任务、数据入湖任务和 SQL 作业任务，支持任务启动、停止、重启、执行状态查看、运行日志、失败原因查看和异常排查。

数据服务模块用于将数据湖中的数据封装成 API 服务，对外提供统一的数据访问能力，支持接口配置、请求参数配置、返回字段配置、接口测试、启用禁用、权限控制和调用日志查看，方便业务系统、报表系统和数据看板直接调用。

项目实现

1、“我”负责哪些具体任务？

我主要负责数据集成平台中数据源管理、数据集成、SQL 作业和任务管理相关模块的设计与开发。

在数据源管理模块中，负责 MySQL、InfluxDB 等数据源的配置信息维护，包括数据源新增、编辑、删除、连接测试、启用禁用、连接参数校验等功能，为后续数据采集和入湖任务提供统一的数据源配置能力。

在数据集成模块中，负责基于 NiFi 对数据采集流程进行管理，将 MySQL 业务数据和 InfluxDB 时序数据接入平台，通过配置化方式管理数据流转流程，支持数据采集、字段映射、数据转换、任务启动停止和运行状态查看，为数据入湖提供基础能力。

在 SQL 作业模块中，负责 Flink SQL 作业相关功能开发，支持用户通过 SQL 的方式编写数据处理逻辑，实现对数据的清洗、转换、聚合和加工处理。模块支持 SQL 作业创建、编辑、提交、停止、状态查看和执行结果管理。

在任务管理模块中，负责接入 XXL-JOB 实现任务调度能力，对数据集成任务、数据入湖任务和 SQL 作业任务进行统一调度和管理，支持任务启动、停止、定时执行、执行日志查看、失败原因记录和任务状态维护。

2、项目使用了哪些技术栈、架构，实现上亮点、难点？

项目采用 Spring Boot 微服务架构，结合 MySQL、Redis、NiFi、Flink SQL、XXL-JOB、Hadoop/HDFS、Iceberg、InfluxDB 等技术实现企业级数据集成与数据入湖能力。

架构上，平台通过数据源管理模块统一维护外部数据源配置，通过 NiFi 管理数据采集和流转流程，通过 Flink SQL 实现数据清洗、转换和计算处理，通过 XXL-JOB 统一调度数据同步、入湖和 SQL 作业任务，最终将 MySQL、InfluxDB 等外部数据源的数据处理后写入 Hadoop/HDFS +