国家健康医疗大数据平台

我要开发同款
hellocat2024年04月26日
101阅读

作品详情

大数据治理平台分为四大部分。第一部分ETL:分负责抽取、标化全省公卫系统216个数据库,部分三甲医院12个his系统,非结构化半结构化数据和部分其他系统数据,采用kettle工具进行大部分结构化数据得抽取,特殊数据库采用java脚本程序单独采取,使用mysql作为结构化数据和半结构化数据中间件第二部分效验和数据治理:该部分主要负责对所有来源的数据进行清洗和加密,根据数据来源提供的规则进行数据清洗,增量数据的效验工作,逻辑为从mysql种的数据读取并根据输出协议加密后进入kafka生产端。第三部分整合数据:从kafka和redis消费数据进入greenplum和hive,非结构化进入weedfs系统和es集群。第四部分业务层: greenplum 为居民健康档案系统提供数据来源,部分bi的展示数据。Hive中的数据主要是做数据分析,为智能阅片提供训练数据和少部分计算。使用MR+redis进行离线作业做BI展示,搜索模块使用es做实时查询,主要是对非结构化和半结构化搜索。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论