准实时数据处理(spark)

我要开发同款
proginn21240113092023年05月16日
106阅读
开发技术java
所属分类实时、平台、大数据

作品详情

项目描述:对上交所、深交所、北交所和沪港通每日的基金股票数据做处理。下午三点数据会发送到服务器,CD监控到数据到达,抽取数据到Linux后通过flume处理sink到hdfs,经过后续ods层到jgqr层的业务逻辑,生成数据推到下游应用端。项目职责:1.使用CD工具和SHELL脚本,采集Windows上面的数据到Linux中。2.负责pre层的数据处理。在pre层为针对不同的业务逻辑对数据打上标识。3.自定义flume的source对不同的文件数据进行解析rdb、xls等文件格式解析。项目贡献:1.对pre的处理逻辑做优化,需要使用到的历史数据做前置处理,过滤不需要的的数据,解决数据倾斜等问题。2.执行交易明细层的时候,对pre表和参数表提取视图,提升交易明细层的执行效率。3.每天业务完成后对交易明细层的小文件进行合并,提升交易汇总层的执行效率。4.跑接口数据的时候,需要使用到最新的参数表,参数表在不断的更新,采用insert into加批次的方式解决该问题。5.设计db2状态表和hive的业务表,理解业务,在满足业务的前提下对接口流程可能的去提升执行效率。6.大数据集群资源有限,业务一般集中执行,需要合理为每个接口配置spark能够使用的资源,保证不同接口执行流程有足够的资源并且不会影响其它接口执行。7.CD拉取文件数据进行改进:在windows端对批次拉取的文件打tar一次性拉取,提升效率。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论