个人介绍
1. 熟悉数据分析相关的 pandas,numpy,matplotlib 等第三方开发库,参与过数据分析项目的算法开发工作
2. 掌握 Python 语法应用,能自主开发工具类, 以及利用 PySpark 进行大数据开发
3. 熟练 Spark 核心原理及其组件 Spark Core/Spark SQL/Stuctured Streaming 的使用,能够 Spark 集成 Hive 进行数仓
开发
4. 熟练 Hive 核心原理,分层结构 使用 Hive SQL 对数据进行统计分析,完成业务需求, 以及后续 Hive 相关的优化工作
5. 熟练 Hadoop 生态圈,及其三大组件 HDFS 分布式架构、YARN 资源调度、MapReduce 计算框架的相关核心机制
6. 熟练 Kafka 基本原理, 使用 Kafka 消息中间件存储并消费数据, 并与 Spark 整合使用进行数据的实时处理
7. 熟练 Flume 的基本使用, 把 nginx 日志和埋点日志数据采集到 Kafka,然后使用 Structured Streaming 结构化流对数
据进行计算分析
8. 熟练 ElasticSearch 原理,能够使用 ElasticSearch 集成 Hive 将数据导入到 ES 中进行存储,能够使用 ES 对接 Spark 进
行处理
9. 熟练使用 Sqoop,DataX 进行数据迁移,主要从 MySQL 数据库迁移至 HDFS 中
10. 熟练利用 FineBI 与 FineReport 进行数据可视化展示,如数据结果的统计图(柱状,折线等等)
11. 了解 Flink 的基本使用,如 Flink 的特性,Flink 基础架构等
工作经历
2024-03-20 -至今南昌遄飞科技有限公司数据开发工程
主要业务:电网相关 负责气象相关的应用,从数据源获取数据,处理,结果统计分析,形成报告分发全省各个地市 JavaSpark 与华为云数据中台交互等等
2021-02-08 -2024-06-14河南雨木信息技术有限公司大数据开发工程师
负责数据分析及大数据相关的开发,数据ETL,数仓建设,以及大屏展示等等 项目之一职责: 1.通过 Sqoop 对 MySQL 进行数据采集,导入到 ElasticSearch 中 2.参与项目中规则匹配类标签的开发(利用 Spark SQL 对用户打标签,如婚姻状态,消费能力等) 3.参与项目中统计类标签的开发(利用 Spark SQL 对用户打标签,如付款方式,消费周期等) 4.参与项目中实时数据的分析,将采集后的日志数据通过 Spark SQL 进行解析,如解析时间(时间格式转换) 5.负责将处理完成的结果存储到 ElasticSearch 中,并进行数据校验,数据无误再迁移至 Presto,用于结果可视化展示 6.参与利用 FineBI 对数据分析结果可视化操作,主要负责仪表盘的部分组件(如扇形图,柱形图等)
教育经历
2019-09-13 - 2023-07-10郑州科技学院物联网工程本科


