数据中台项目_系统开发案例-程序员客栈

搭建苏宁的数据中台体系：进行数据建模、数据分析、挖掘预测、可视化展现工具的设计开发，对集团各种业务数据进行数仓建设、维度建设、统一建模、指标规范化定义。开发统一数据服务对指标、模型进行查询，满足千亿级数据量的高并发量、高基数、低延迟的统计分析。建设BI工具对指标进行各种数据分析。
Olap引擎开发：对模型构建抽象层、映射层和物理层，对外统一采用SPARK SQL提供服务。对SQL语句进行执行计划分析、优化，根据执行计划自动路由到底层的druid、clickhouse、es或者PG及代价最优的cube上。
对数据分析进行加速：对各种模型进行cube创建，并根据调用频率、执行性能、构建代价以及cube重复度等指标对cube进行优化。执行计划的优化，包括SQL join 的汇总limit下压优化，物化视图的优化、维表关联、dynamic filter功能并且下推到druid 、clickhouse中，提升查询性能
引入了hudi数据湖技术，解决大数据更新问题以及物流模型join问题
使用多阶段事务提交技术，解决财务模型中财务数据到parquet再到clickhouse长数据链中的数据一致性问题
对druid进行性能优化和改造，解决OOM、资源隔离、熔断、分段路由等问题
采用cost模型对SQL语句进行代价评估，根据代价来进行限流、降级以及资源隔离
采用bitmap技术对于上亿会员进行各种集合操作（新、老会员、留存率、复购率等），并在clickhouse中使用了各种优化技术，提升性能；在spark中使用bitmap进行计算，并根据存算分离原则对spark执行计划进行优化。
解决spark在高并发下的调度、OOM、参数调优和性能问题。将spark 3.2下的SQL解析改造功能引入到spark 2.4上，大幅提升了sql语句解析性能。对spark 3.x下的AQE进行改进，解决星型模型的多表join性能和数据倾斜问题
开发Spark clickhouse核心代码，解决高基数、精确去重等问题
改造ES-hadoop项目，将order by、查询条件等语句进行下推，大幅提升查询性能

数据中台项目

功能介绍

示例图片

重点城市程序员兼职推荐

重点岗位程序员兼职推荐