数据中台项目

我要开发同款
wangjz2023年10月12日
52阅读
所属分类电商零售电商

作品详情

搭建苏宁的数据中台体系:进行数据建模、数据分析、挖掘预测、可视化展现工具的设计开发,对集团各种业务数据进行数仓建设、维度建设、统一建模、指标规范化定义。开发统一数据服务对指标、模型进行查询,满足千亿级数据量的高并发量、高基数、低延迟的统计分析。建设BI工具对指标进行各种数据分析。Olap引擎开发:对模型构建抽象层、映射层和物理层,对外统一采用SPARK SQL提供服务。对SQL语句进行执行计划分析、优化,根据执行计划自动路由到底层的druid、clickhouse、es或者PG及代价最优的cube上。对数据分析进行加速:对各种模型进行cube创建,并根据调用频率、执行性能、构建代价以及cube重复度等指标对cube进行优化。执行计划的优化,包括SQL join 的汇总limit下压优化,物化视图的优化、维表关联、dynamic filter功能并且下推到druid 、clickhouse中,提升查询性能引入了hudi数据湖技术,解决大数据更新问题以及物流模型join问题使用多阶段事务提交技术,解决财务模型中财务数据到parquet再到clickhouse长数据链中的数据一致性问题对druid进行性能优化和改造,解决OOM、资源隔离、熔断、分段路由等问题采用cost模型对SQL语句进行代价评估,根据代价来进行限流、降级以及资源隔离采用bitmap技术对于上亿会员进行各种集合操作(新、老会员、留存率、复购率等),并在clickhouse中使用了各种优化技术,提升性能;在spark中使用bitmap进行计算,并根据存算分离原则对spark执行计划进行优化。解决spark在高并发下的调度、OOM、参数调优和性能问题。将spark 3.2下的SQL解析改造功能引入到spark 2.4上,大幅提升了sql语句解析性能。对spark 3.x下的AQE进行改进,解决星型模型的多表join性能和数据倾斜问题开发Spark clickhouse核心代码,解决高基数、精确去重等问题改造ES-hadoop项目,将order by、查询条件等语句进行下推,大幅提升查询性能
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论