基于Hadoop数据仓库的实现以及优化

我要开发同款
大数据开发2025年05月07日
54阅读
开发技术ShellPython
所属分类HDFS、Hadoop、Kafka、电商、大数据
授权协议Apache许可

作品详情

项⽬简单描述:通过前端埋点收集⽤⼾⾏为数据数据,业务数据采集采⽤同步策略存储在Mysql,⽤户⾏为数据采集使⽤flume通道,设置ELT拦截器获取⽇志时间戳,通过kafka消息队列暂存⽇志⽂件,业务数据通过Maxwell暂存kafka,所有数据经过⼀系列操作最终流⼊Mysql,通过数据接⼝可以⽣成可视化报表技术栈:Hadoop,Zookeeper,Kafka,Flume,Spark,Hive等项⽬总结:本项⽬主要采集电⼦商务平台的⽤⼾⾏为数据和业务数据,业务数据通过调研最晚可到达200天,每次可抽取处理200天的数据,通过⼤数据组件分析⽤⼾⾏为,利⽤分析结果达到推测⽤⼾喜好,推荐类似商品的效果
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论