架构方案:
用户打车的订单数据非常庞大。所以我们需要选择一个大规模数据的分布式文件系统来存储这些日志文件,此处,我们基于Hadoop的HDFS文件系统来存储数据。
为了方便进行数据分析,我们要将这些日志文件的数据映射为一张一张的表,所以,我们基于Hive来构建数据仓库。所有的数据,都会在Hive下来几种进行管理。为了提高数据处理的性能。
我们将基于Spark引擎来进行数据开发,所有的应用程序都将运行在Spark集群上,这样可以保证数据被高性能地处理。
我们将使用Zeppelin来快速将数据进行SQL指令交互。
我们使用Sqoop导出分析后的数据到传统型数据库,便于后期应用
我们使用Superset来实现数据可视化展示
点击空白处退出提示









评论