负责处理离线和实时部分的内容项目描述:针对公司发展,产生的数据量日益增大,搭建对应的大数据采集系统存储海量 日志,为数据分析做准备, 通过日志采集系统和业务数据系统分别搭建用户行为数仓和系统业务数仓,对产生的大量数据进行整合统计。数仓是建立在 Hive上,主要对数据进行分层解耦、数据清洗,统计各 项指标,提取有价值的信息。通过数仓系统帮助公司业务的改进,业务智能化并提供指导 流程改进、成本、质量以及控制。涉及技术:Flume,Kafka,Sqoop,Spark Streaming,Redis,ElasticSearch,Hbase,Spring Boot,Datax
点击空白处退出提示
评论