项目描述:
对数仓进行升级,将之前的部分数据处理是基于Sparksql开发的转化为HQL,对部分的数据源进行调整和数据处理的调整;不需要的业务的清除和新增业务的添加;基于之前的数据运行分析数据,提升数仓整体的运行性能。
项目职责:
1.理解原有spark代码业务,转化为HQL实现。
2.自定义的UDF和UDTF函数,对新的数据源进行处理转化,已经不需要的数据进行过滤处理。
3.已经完成交割确认的数据从交易汇总表剥离出来,建立新表,减小后期查询的数据量。
4.需要join多张大数据表的耗时流程进行优化,建立中间表或者根据业务拆表,尽量去避免后期多大表之间的join。
5.建立二级分区,一些数据处理按照ppi分区外,还可以按业务类型进行分区,对比之前的每次数据都按照全部业务类型跑数效率很大提升。
6.uat版本的HQL和生产版本的HQL区分,生产版本的不应该有注释,hive解析也需要时间(规范化)
7.后期新增的业务需要开发