本项目面向区县级卫健部门,针对健康数据分散、分析滞后、决策缺乏依据等痛点,基于Hadoop开源生态构建低成本离线分析平台,实现区域慢性病分布监测、重点人群管理和公共卫生资源优化,助力基层健康治理数字化转型。
点击空白处退出提示
本项目面向区县级卫健部门,针对健康数据分散、分析滞后、决策缺乏依据等痛点,基于Hadoop开源生态构建低成本离线分析平台,实现区域慢性病分布监测、重点人群管理和公共卫生资源优化,助力基层健康治理数字化转型。
项目包含四大功能模块:(1)多源健康数据接入与HDFS存储;(2)基于Hive的数仓分层建模(ODS/DWD/DWS);(3)Spark批处理实现数据清洗、高血压识别与区域聚合;(4)Flask+ECharts可视化大屏,展示各街道患病率、年龄分布等指标。系统支持每日自动分析百万级居民健康记录,为基层卫健部门提供决策依据。
本人负责平台整体架构搭建、数据处理 pipeline 开发及可视化集成。技术栈采用 Hadoop 3.4.2 + Hive 3.1.3 + Spark 3.5.1 构建离线数仓,使用 OpenJDK 11 + Python 3.10 开发 PySpark 清洗与聚合脚本,结果存入 MySQL 8.0 并通过 Flask + ECharts 展示。亮点在于实现 Hive 分层建模与 Spark 高效批处理,显著优于传统 MapReduce;难点在于多虚拟机集群配置(SSH 免密、时钟同步、HDFS 权限)及 PySpark 与 Hive 表的无缝对接,通过自动化脚本与配置优化成功解决。




评论