基于Hadoop数据仓库的实现以及优化开源项目

我要开发同款
大数据开发2025年05月07日
80阅读

技术信息

语言技术
PythonShellKafkaHadoopHDFS
开源地址
https://pan.baidu.com/s/1vumzR0WpLQeU4GCy_Lm_SA?pwd=8888
授权协议
Apache许可

功能介绍

项⽬简单描述:通过前端埋点收集⽤⼾⾏为数据数据,业务数据采集采⽤同步策略存储在Mysql,⽤户⾏为数据采集使⽤flume通道,设置ELT拦截器获取⽇志时间戳,通过kafka消息队列暂存⽇志⽂件,业务数据通过Maxwell暂存kafka,所有数据经过⼀系列操作最终流⼊Mysql,通过数据接⼝可以⽣成可视化报表
技术栈:Hadoop,Zookeeper,Kafka,Flume,Spark,Hive等
项⽬总结:本项⽬主要采集电⼦商务平台的⽤⼾⾏为数据和业务数据,业务数据通过调研最晚可到达200天,每次可抽取
处理200天的数据,通过⼤数据组件分析⽤⼾⾏为,利⽤分析结果达到推测⽤⼾喜好,推荐类似商品的效果

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论