烟草综合平台

我要开发同款
proginn14444527912022年09月07日
123阅读

作品详情

一.数据采集 数据采集主要分为离线数据采集和实时数据采集,其中离线数据采集和实时数据采集支持的多种源数据和多种数据结构(包括结构化数据和半结构化数据)离线数据流:基于关系型数据库的数据采集方式,主要采用Sqoop工具将源系统RDMBS数据库的数据同步到Hadoop平台上,以Hive表方式进行数据存储。实时数据技术架构:对于关系型数据库的增量数据同步,可采用Flume+Kafaka 组件同步,实时性强;可支持Hive/HDFS/Kafka/Spark 等多种写入手段,并且具有图形化界面,支持导入过程的简单转换逻辑。二.数据存储 大数据平台在数据存储层中,存在三种主要的数据存储方式,分别是HDFS、HBASE、Kudu。 HDFS( Hadoop Distributed File System),是一个分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。底层为统一分布式存储HDFS,HDFS采用三份副本策略保证数据的安全性以及可靠性。然而,随着时间的推移,很少被使用到的归档历史数据会越来越多,占用大量的HDFS存储空间,HDFS通过Erasure Code技术将历史冷数据在保证数据安全可靠的基础上降低其存储开销。HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。HBase 不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase 从一开始就是为 Terabyte 到 Petabyte 级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。Kudu是一种全新的列存储引擎,完全独立于HDFS文件系统,它的设计借鉴了传统的列存储数据库。Kudu的设计目标是在设计一种全新的存储引擎,既支持HDFS的高性能全表扫描,也支持HBase的随机IO操作和数据更新。Kudu拥有扫描大数据量时吞吐率高、访问少量数据时延时低、支持数据的更新和删除、支持关系数据模型等优点。 三种数据存储方式各有优缺点,适用于不同的应用场景。通常基于大数据平台的数据中心的非实时数据以HDFS方式着陆,而实时数据以Kafka作为数据着陆区;接着通过HIVE表设计进行数据存储管理,最后处理后的数据可通过Impala视图的方式支持下游应用的访问。本系统主要数据来源采用Sqoop工具同步过来的表数据,会以HIVE的数据存储方式进行存储,这样既保留了关系型数据结构,也兼容Impala的分析查询方式。三.数据计算大数据平台完成数据整合任务,主要包括对数据的清洗、转换、聚合、集成等操作。通过将计算过程迁移到大数据平台,实现了对原有的ETL过程负载的转移,提升计算能力。同时,若存在原有的基于PLSQL实现的数据处理逻辑,主要是通过分析原有的数据处理语义,采用HIVE对原SQL逻辑进行改写,以及通过HPLSQL实现原有存储过程的改写,以达到原有的数据计算目的和效果。对于当前ANSI-SQL的基本语法,如SQL基本操作类型(select、insert、update、delete)、基本函数(case when、decode、to_char、to_date、count、sum、min、max、substr等)、数据类型等都可以通过hive相关的语法进行同义转换;当HIVE的自带函数无法满足的时侯,可能通过自定义函数UDF的变通方式支持原有逻辑。四.任务调度ETL任务调度工具采用的Apache 开源项目Dolphin Scheduler,Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中。五.数据服务大数据平台作为企业的数据中心平台,通过大规模的存储及海量的数量计算能力,为下游的系统提供数据支持。通过DataAPI等技术提供数据服务能力给下游系统及应用。六.数据治理 数据治理是为了满足企业内部对信息的需求,提升企业信息服务的水准而制定的相关流程、政策、标准以及相关技术手段,用于保证信息的可用性、可获取性、高质量、一致性以及安全性;数据管控是一项跨系统、跨部门、长期的、渐进式的工作。数据治理平台是数据管控的落地平台,也是数据治理咨询后实施的IT建设成果,可帮助企业实现数据资产统一管理,数据质量提升及完善。海捷科技结合行业实践,在数据治理领域积累了数据治理产品,包括元数据管理系统、数据质量管理系统以及数据标准管理系统,用于支撑不同专业领域的数据治理工作。元数据管理:用于管理企业的技术元数据(数据字典等)、业务元数据(指标口径等)和管理元数据,支持企业级元数据的自动化、全流程、版本化、标准化的元数据管理,具备企业级生产态及开发态元数据管理能力。数据质量管理:用于基于数据治理经验及数据标准要求,执行配置的数据质量检查规则,支持各项数据质量专项检核工作,并形成质量报告,支撑不同维度的数据治理分析工作。数据标准管理:用于支持企业数据标准咨询的落地工作,支持标准建立的日常流程管理、提供标准查询支持标准推广工作以及标准在业务系统中的落地情况跟踪管理工作。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论