1、熟悉数据ETL流程,熟悉Hive等工具的数据处理、清洗、变换手段。
2、熟练掌握shell脚本语言,可熟练操作Linux系统,了解Perl脚本。
3、了解Hadoop生态圈大部分主流框架技术(HDFS、MapReduce、Spark、Hive、Flume、Kafka、 Oozie、YARN)。
4、了解Flume、Kafka、Spark Streaming三者的集成使用,可实现实时流式数据采集与存储。
5、熟练掌握SQL语言,熟练运用hql、Spark sql,熟练操作MySQL关系型数据库,了解Oracle, Teradate。
6、了解Beyond Compare文件比对文件的操作流程。
7、了解Java、Scala语言。