聚美用户行为分析_系统开发案例-程序员客栈

演示地址
http://bj.jumei.com/

一、聚美大数据离线指标分析系统
大数据开发工程师
2018年04月 - 2022年01月北京
2018年07月 - 2022年01月北京
软件架构:Nginx+Flume+Kafka+Hadoop+Hive+Sqoop+MySql+Kylin+Azkaban+Spark+Superset+睿像云
项目描述:为配合公司的战略要求，拟建设一个大数据平台，统一收集和存储各个业务的原始运行数据，通过数仓分层对用户日志数据及业务数据进行整合并统计分析，提取有价值的信息帮助公司提高产品质量及上级领导的分析决策
个人职责: 主要负责模块包括:
1. 实现用户行为数据仓库以及业务数据仓库的分层搭建 2. 对数据进行ETL，脱敏，维度退化以及制作宽表

3. 负责数仓平台的数据维护，确保仓库模型数据的准确性和一致性
4. 针对数据仓库中的数据进行用户新增、流失、回流、留存、沉默、TopN、在线时长、转化率、连续一周登陆、最近连续三周活跃用户、评价等报表分析
技术描述:
1. 数据仓库的分层架构:ODS+DWD+DIM+DWS+DWT+ADS
2. 使用Flume采集日志文件并发送到Kafka集群
3. Flume配置kafkaSource从Kafka集群收集日志数据，并保存到HDFS
4. 在 Hive 中使用Snappy压缩，减少 IO 读写，并将 Hive 的元数据从默认的derby 中转入到 Mysql 中存储以支持多客户端访问
5. 使用Hive对数据进行多维分析，主要计算客户的留存率，日活跃，月活跃等一些指标。并且存储到MySql里，对空值和数据一致性问题进行处理
6. 在 Kafka 中通过调整日志保存时间、副本数和内存等参数来提升性能
7. 对于小文件问题优化: 1在MR 任务中手动开启 merge 对不足 16M 的小文件合并至256M。 2CombineHiveInputformat 提前对数据进行合并，减少生成的 MapTask。3开启JVM 重用，但是不宜过大
8. 对于不同类型的任务，采用不同的计算引擎: MR(基于磁盘，一定跑完，适用于任务量大，时效性要求不高的数据)、 Spark( 基于内存和磁盘，跑日常任务)
9. 对日常任务进行Kylin即席查询
10. 使用Aazkaban定时调度任务，并集成睿像云实现邮件电话报警

声明：本文仅代表作者观点，不代表本站立场。如果侵犯到您的合法权益，请联系我们删除侵权资源！如果遇到资源链接失效，请您通过评论或工单的方式通知管理员。未经允许，不得转载，本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP

实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

前往安装

聚美用户行为分析

技术信息

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐