离线数据分析平台,实时流批一体分析平台

我要开发同款
proginn21284236342022年08月23日
124阅读

作品详情

一、功能模块数据集成:采用dts,seatunnel方式集成输入入仓入湖数据清洗及加工:HQL、SparkSQL进行数据的预处理,搭建数据模型提供运算效率,优化脚本加快处理速度数据报表展示:将加工好的数据放入第三方可以访问的组件中,展示出去。实时指标编写:针对百T级数据的处理采用Flink引擎达成流批一体架构,快速处理。二、主要负责业务指标编写及维护执行逻辑优化flink代码编写实现批流一体三、项目中的问题及解决方案常见的数据倾斜问题?观察Spark executer执行时间,根据执行时间最长的executer找到出现问题的原因,可以将数据打散处理。均匀分散。flink任务导致的检查点无法保存数据积压太多,导致checkpoint超时无法完成,排查逻辑将执行时间过长的Task进行优化切分,设置合理的checkpoint。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论