Allen_data_engineer
12小时前在线
全职 · 300/日  ·  6525/月
工作时间: 周末09:00-18:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

1.掌握Python程序设计,对html、css有基本的了解,会网络爬虫,爬取过京东手机图片

2.会使用fiddler抓包工具,对正则表达式,xpath抽取技术有一定掌握,熟悉scrapy爬虫框架

3.熟悉 Linux 操作系统的常用命令,shell编程

4.熟悉ETL工具,用过kettle/datastage

5. 熟悉使用 SQL 语言,用过 sql server/mysql/oracle/db2/。

6. 熟悉 Scala 编程语言,能利用 Scala 语言对 Spark 程序进行编写

7. 熟悉 ETL 工具 Kettle/Datastage,熟悉调度工具 Control - M,代码管理工具 SVN,Gitlab。

8. 有 Azure/Alicloud/AWS 的项目实战经验。

9.对大数据产品如 Confluent(kafka)/Databricks(spark) 有一定的熟悉。

10. 理解并熟悉 Hadoop, MapReduce, Yarn, Spark, Flink, Hive, Kafka 等大数据开源框架。

11. 熟悉使用 SparkSQL、SparkStreaming 进行数据开发,了解 Spark 作业的性能调优

12.熟悉使用Airflow(composer)进行Spark作业的调度 

13 有Jenkins CI/CD 的使用经验

14. 熟悉使用 Power BI 进行应用层数据进行相应展示。

15. 对 K8S 有一定的熟悉,在虚拟机上部署过 K8S 集群

16.熟悉敏捷开发环境(Agile)实施流程

工作经历

  • 2021-02-22 -2022-07-22广州华钦软件技术有限公司数据开发

    项目 一:Project Zues(Teradata 数据迁移至阿里云) --银行业务 背 景 :因中国监管部门要求,国内金融行业数据是不能出中国大陆的,需将某外资银行在香港 的财富产品的数据搬迁到国内的服务器。 技 术 栈: 阿里云 Maxcompute,Datawork,,Oss 储存,Teradata, Juniper, Oracle, Postgresql, Python, Linux Shell,Control-M, Datastage 数据处理: 1.相关 wealth product 的系统的开发,脏数据的处理(oracle 不可见字符的处理) 2.对源头数据文件的 shell 进行相关功能变更修改,相关数据库文件的配置 3.解决 etl 过程遇到的各种技术问题不限于中文乱码(云上乱码,ds job 的属性更改和 oracle 抽数参 数文件加 translate函数处理),源头系统 shell的整合(一个是 ds job解析 xml文件, 一个是 ds jo

  • 2019-12-01 -2021-02-01广州安正科技有限公司数据开发工程师

    1.负责对各源头系统数据抽取的kettle程序开发,sql server数据库建表,调度平台kettle参数配置 2.对源头数据和流到平台当前数据进行比对是否一致做相应的程序调整,达到数据准确的效果 3.SIT测试及UAT测试(解决程序的相关报错),保证程序逻辑正确性 4.打包测试环境的项目到预生产环境进行试运行和调试 5.根据UAT的反馈,改进kettle程序逻辑

  • 2019-06-30 -2019-11-30广州安正科技有限公司数据开发工程师

    1.负责AZURE云的 DATA FACTORY的调度及NOTEBOOK代码的编写(ETL开发) 2. 在项目一期的基础上参与二期项目根据需求进行代码的编写(如传输数据量较大,改为每次只传前 一两个玛氏月的数据),提高这个项目程序的运行效率。 3.并对AZURE平台DATA FACTORY的PIPELINE组件进行SIT测试(PIPELINE组件,DATABRICK的 NOTEBOOK代码测试),对POWER BI上的报表的数据进行准确性测试。 4. 对其他国家经销商接口文件数据的代码编写,以及对报表上出现的数据异常对源代码进行DEBUG。

教育经历

  • 2015-09-18 - 2019-06-30仲恺农业工程学院自动化本科

语言

中文母语水平
英语可口语交流
0
1
2
3
4
5
0
1
2
3
4
5

技能

Python熟练
Shell掌握
Kafka掌握
Hadoop熟悉
0
1
2
3
4
5
0
1
2
3
4
5
更新于: 12小时前 浏览: 3