目标:顺畅支援全球外部客户和内部各单位的大数据分析需求,快速、高品质地让数据在分析平台可见,同时兼顾最优的成本投入
架构:Hybrid混合云架构(地端+Google Cloud湖仓一体) | 技术栈:Java,NiFi/Kafka/RDB CDC/Redis/Google Cloud ETL流批处理,云计算
- 团队管理:领导6人跨职能团队(开发/测试/运维),采用Scrum敏捷开发,实现 90%+ 按时交付率
- 技术主导:
- 高可用架构:分布式NiFi集群+云端弹性架构,支持日均2TB~12TB异构数据处理(峰值吞吐量达30GB/s),稳定运行1000+数据管道
- 高性能数据处理:设计公司RDB增量数据采集(无增量字段和软删除标记)和大数量稳定抽取,显著提升RDB数据接入效率
- 近实时数据采集:Streaming Kafka,RDB CDC(Debezium),从地端汇集到云端数仓耗时19秒
- 成本优化: 设计冷热数据分层存储,通过云存储Retention,Archive及列式压缩,年节省存储费用$19万(降幅90%)
- 日常运维:制定数据上架跨部门合作 co-work