一.数据采集
数据采集主要分为离线数据采集和实时数据采集,其中离线数据采集和实时数据采集支持的多种源数据和多种数据结构(包括结构化数据和半结构化数据)
离线数据流:基于关系型数据库的数据采集方式,主要采用Sqoop工具将源系统RDMBS数据库的数据同步到Hadoop平台上,以Hive表方式进行数据存储。
实时数据技术架构:对于关系型数据库的增量数据同步,可采用Flume+Kafaka 组件同步,实时性强;可支持Hive/HDFS/Kafka/Spark 等多种写入手段,并且具有图形化界面,支持导入过程的简单转换逻辑。
二.数据存储
大数据平台在数据存储层中,存在三种主要的数据存储方式,分别是HDFS、HBASE、Kudu。
HDFS( Hadoop Distributed File System),是一个分布式文件系统。它具有高容错性的特点,可以被广泛的部署于廉价的PC之上。它以流式访问模式访问应用程序的数据,这大大提高了整个系统的数据吞吐量,能够满足多来源、多类型、海量的数据存储要求,因而非常适用于日志详单类非结构化数据的存储。底层为统一分布式存