



个人介绍
熟悉Java、Scala、Python编程语言,拥有良好的编码习惯。
熟悉Hadoop核心架构和工作机制,能搭建CDH版的Hadoop HA集群。
了解Hive数仓建设的基本理论,熟练使用HQL进行企业级开发,有Hive调优经验。
理解Spark内核及调优,熟练使用Spark编程,完成复杂业务场景的分析需求开发。
了解Spark Streaming和Flink的基本原理,有实时数据处理分析的相关经验。
了解Sqoop、Flume、Kafka等相关技术栈的使用场景和编写开发。
掌握SQL语句的增删改查操作,了解MySQL、SQL Server数据库的安装及使用。
了解HBase、Redis两个主流NoSQL数据库的应用场景、API开发及优化策略。
熟悉Linux操作系统,掌握Linux常用命令的使用,能进行简单的Shell脚本编程。
具备良好的Java语言基础,了解多线程、JVM内存模型和垃圾回收机制。
了解主流Java Web开发框架,使用Spring Boot或SSM框架开发用户中心模块。
了解KMeans、随机森林、协同过滤、逻辑回归等常用机器学习算法,能够使用Spark ML和scikit-learn构建模型并进行训练、评估和预测。
了解Zeppline、Kettle、FineBI、QuickBI等大数据相关工具的使用。
简单使用FineReport进行报表制作,搭建数据决策分析系统。
工作经历
2024-03-01 -至今南京爱普瑞斯软件有限公司lead engineer
基于Microsoft Fabric平台开发onelake,集成公司产品数据。需与不同产品部门的人沟通业务(基本上都是印度人),开发common utils,降低代码复用,提高健壮性。
2023-08-01 -2024-02-01奇瑞汽车股份有限公司大数据开发工程师
数据闭环:前期准备工作,埋点数据格式及完整性校验,数据处理分析算子开发。 能力建设:瑶光实验室及前瞻技术项目对接工作,2024届秋招面试工作。
2021-05-01 -2023-07-01中软国际科技服务有限公司大数据开发工程师
ToB业务开发:商品智能推荐,开源情报系统,拍照搜索ToB,NLP。 平台工作能力:平台服务部署,工具使用和任务上线维护,补丁版本发布等。 Java(Flink):流任务代码开发(双流更新排序、窗口统计排序)以及执行框架的优化重构。 Scala(Spark SQL):离线业务需求开发(离线召回指标分析、热搜推荐统计、个性化推荐统计)。 Python(xpath、sqlalchemy、flask、pandas):社交媒体分析,简易报表系统,图片搜索服务,NLP。
2019-06-01 -2021-04-01北京易数科技有限公司数仓开发工程师
参与大数据平台的集成和维护,保证数据平台的稳定和可靠。 参与项目前期的需求分析、技术选型、数仓构建,并编制相关技术文档。 使用Hive SQL或Spark SQL做离线数据处理,为业务层提供报表数据。 使用Spark Streaming或Flink进行实时流计算,将结果存储到数据库中。 与算法师沟通协作,完成KMeans、ALS、LR等算法的代码实现。
2017-07-01 -2019-05-01上海启高信息科技有限公司ETL /Java工程师
离线数据ETL处理,根据业务需求进行离线统计和特征数据提取。 Java Web数据可视化,使用SSM框架整合暴露数据接口。 参与项目需求分析、系统设计,部分功能的相关业务代码实现。
教育经历
2010-09-01 - 2014-06-30南京理工大学机械工程本科已认证