阿呆007-成都架构师-程序员客栈

1月前来过

D级

大数据工程师

成都

全职 · 1000/日 · 21750/月信用正常

工作时间: 工作日18:30-24:00、周末9:00-21:00工作地点: 远程

服务企业: 1家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

1. 熟悉Linux环境，能熟练的在Cent OS中搭建Apache与Cloudera发行版的分布式集群。
2. 熟悉Hadoop框架。深入理解HDFS架构、读写机制以及元数据管理机制，阅读过HDFS核心源码。理解MapReduce思想与运行机制，及其shuffle机制。理解Yarn工作机制及其调度策略。能使用Java API进行相应的开发。
3. 熟悉Hive数据库。熟练使用HQL语句完成相应需求，了解数据存储格式及其应用场景，了解Hive的调优策略。
4. 熟悉HBase数据库。理解HBase数据读写流程，了解flush与compact机制，了解HBase表的预分区机制。理解布隆过滤器工作原理。能够使用HBase的API完成相应的开发。
5. 了解Redis数据库。了解Redis数据库的数据类型及其应用场景，了解Redis数据库的删除策略与持久化策略，对于缓存穿透、缓存雪崩等问题有一定了解，对于分布式锁的Redis解决方案有一定了解。
6. 熟悉Zookeeper分布式协调组件。熟悉Zookeeper数据结构与监听机制，熟悉Leader选举机制与ZAB一致性协议，对于分布式锁、服务器动态上下线以及配置中心的Zookeeper解决方案有一定了解。熟练使用Zookeeper的命令行与ZkClient开源客户端。
7. 熟悉Spark计算引擎。熟练掌握Spark RDD、Spark SQL、Spark Streaming编程，对Structed Streaming，Spark Mlib，Spark GraphX有一定的了解。熟悉Spark on Yarn模式的运行机制，对于作业执行原理、Spark shuffle、内存管理有一定的了解。了解Spark优化与数据倾斜解决方案。阅读过Spark相关的核心源码。
8. 能够熟练使用Kafka、Flume、Sqoop、Airflow等相关大数据组件。
9. 对于Flink、ClickHouse、Kudu、Kylin、Druid、ELK等新技术有一些了解。如果项目需要，能做到快速上手。
10. 熟练使用Python做爬虫开发、数据分析、服务器脚本编写任务。

2021-07-01 -至今清华四川能源互联网研究院大数据工程师
● 负责Apache开源软件基金会IoTDB项目的用户交互与系统集成的开发工作，并编写相应的用户手册。 ● 负责与客户对接并进行相应的用户培训，编写相应的需求分析报告以及部署方案、实施方案等。 ● 根据用户需求，完成相对应数据迁移，数据治理以及数据完整性验证。
2020-05-01 -2021-07-01成都艾派森软件科技有限公司大数据开发工程师
● 根据项目需求确定项目架构与技术方案。 ● 测试与生产环境的大数据平台的搭建与运维。 ● 数据多线程解压与解析的代码编写。 ● 数据批处理与流式处理的代码编写。 ● 数据仓库的设计与建设。 ● 日常数据处理。

2018-09-01 - 2020-07-01成都理工大学计算机科学与技术本科
本科毕业于成都理工大学信息科学与技术学院计算机科学与技术专业。在校期间曾学习过安卓开发、后端开发、游戏开发、运维、信息安全的相关技术，最终选择了大数据开发这一方向。

ElasticSearch熟悉

Python掌握

Kafka掌握

Zookeeper掌握

Hadoop熟练

Java熟练

Spark熟练

爬虫熟练

作品

Apache IoTDB开源时序数据库

1. 负责用户交互方面的开发，如CSV导入导出工具以及命令行交互客户端。 2. 负责系统集成方面的开发，如Spark IoTDB connector的开发。 3. 负责性能测试工具IoTDB-benchmark的开发。

2023-05-05 20:32

视频网站推荐系统（毕业设计项目）

项目时间：2020.02-2020.05 项目架构：CentOS 7.1，Java 1.8，MySQL 5.7，Zookeeper 3.4.11，Hadoop 2.6.1，Hive 1.2.2，Kafka 2.11，Spark 2.0.2，Flume 1.6 项目简介：该项目先编写爬虫从哔哩哔哩视频网站爬取弹幕数据与视频基本信息数据，然后通过协同过滤算法，向用户推荐可能感兴趣的视频。职责描述： ● 基础数据服务建设（1）编写爬虫程序，在哔哩哔哩网站上爬取用户的弹幕数据与视频的基本信息数据。（2）编写python程序将爬取的数据随着时间推移输出到日志文件来模拟web服务器的日志输出。（3）使用Flume拉取日志，将日志通过Kafka发送到Spark Streaming做流式处理之后持久化到Hive数据库中。 ● 推荐算法的实现（1）实现基于用户、基于物品与基于模型的协同过滤的推荐算法。（2）实现基于TF-IDF算法的推荐系统。（3）对于协同过滤算法中的稀疏矩阵的问题进行优化。

2023-05-05 20:36

通信行业实时数仓系统

项目时间：2020.10-2021.07 项目架构：CentOS 7.9，Java 1.8，MySQL 5.7，CDH 5.14.0，Zookeeper 3.4.5，Hadoop 2.6.0，Hive 1.1.0，Kafka 3.1.0，Spark 2.4.0，Redis 5.0.5，Sqoop 1.4.6 项目简介：该项目主要是对基站以及一些监测站生成的数据进行解析、清洗以及大数据分析，对一些重要的指标进行实时计算。并且结合深度学习算法对基站的负载进行预测，来调整或者关断基站来达到网络优化以及节能的目的。职责描述： ● 根据需求设计大数据平台的项目架构与技术方案 ● 在测试与生产的服务器集群环境中搭建CDH，并负责相关运维 ● 对基站以及监测站生成的数据进行解压与解析使用多线程+生产消费者模型对FTP服务器中的xml文件的gz压缩包进行解压、解析与删除，并将解析出来的数据发送到Kafka。 ● 数据的流式处理使用Spark Streaming消费Kafka中的数据，并且使用Redis维护offset。然后对数据进行清洗、重要指标的实时计算，并将清洗后的数据保存到Hive数据库中用于数据分析以及深度学习的模型训练。 ● 数据的批处理使用Spark SQL对Hive数据库中的数据进行栅格化运算，并将运算结果持久化到MySQL数据库中用于前端展示。 ● 日常数据处理对于平时一些比较大的csv数据，通过MySQL+Sqoop导入到大数据平台，并根据相应的需求进行数据处理。

2023-05-05 20:37

更新于: 2022-02-20 浏览: 565

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐