豆豆大王丶-兰州Python-程序员客栈

1月前来过

D级

大数据开发

兰州

全职 · 500/日 · 10875/月信用正常

工作时间: 工作日10:00-19:00工作地点: 远程

服务企业: 4家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

主要以数据开发为主，了解hadoop生态，有使用cdh部署以及监控hadoop的经验，有数据仓库设计经验，了解数据仓库相关内容，数据中台相关内容，习惯使用scala或python完成spark开发，处理离线数据，有使用sparkstreaming处理流式数据经验，有使用python完成简单爬虫的经验。目前稳定工作，任职大数据开发岗位。

2019-08-01 -2020-07-01兰石集团大数据开发
主要负责兰石集团大数据开发相关工作，处理能源管理系统底层数据仓库设计，数据处理，以及上层报表和bi制作，制定数据处理相关指标

2013-09-01 - 2017-07-01福州大学至诚学院材料科学与工程本科
在校期间学习专业知识的同时学习计算机相关知识，大四进入互联网公司实习，

数据仓库建模掌握

数据仓库设计掌握

作品

能源管理系统离线数据处理

兰石集团物联网系统是由兰石集团信息化与智能制造部主持建造，服务对象为兰石集团各生产单位。数据来源涵盖集团所有的生产和管理系统，建立从业务层到管理层到决策层的智能分析体系，模拟量化风险和收益，实现对集团各种业务数据进行分类、管理、统计和分析等功能，给各级管理人员提供各类准确的统计分析预测数据，使其能够及时掌握全面的经营状况，为宏观决策提供支持；为基层业务人员提供详尽的数据，供其对各自的工作目标、当前和历史状况进行准确的把握，对业务活动进行有效支撑；满足集团经营管理及决策支持，解决多类工业设备接入、多源工业数据集成、海量数据管理与处理、工业数据建模分析、工业应用创新与集成、工业知识积累迭代实现等一系列问题。负责内容数据通过mqtt回传进openTSDB数据库，连接本地历史数据库，拿到离线数据，使用sparkSQL进行数据清洗治理和计算工作，将计算结果存入结果表，通过FineReport报表展示工具进行报表化展示，返回结果给前端人员展示在物联网平台上。通过flume自定义source插件，采集rabbitMQ数据，接入kafka消息队列，通过kafka对接到hadoop相关组件，采用sparkStreaming进行实时数据分析，将结果写入库中供后端人员调用。维护集群日常运行，使用CDH监控集群状态，spark代码上线，spark任务提交使用技术 Flume、HDFS、Sparksql、Hive、Mysql、Sqoop、Kafka、Kettle、yarn、redis、hbase、zookeeper 离线数据处理 1. 从本地数据库拿到离线数据，接入spark 2. 编写Sparksql程序对原始日志数据进行处理，包括清洗，分类，滤除脏数据，并且通过sparkSQL计算相关数据，包括同环比，折标煤等数据。 3. 数据写出到本地数据库，配置增量分析读取数据，写入数据追加写入 4. 使用FineReport连接本地数据，拿到离线数据的分析结果，并且通过FineReport展示，将展示结果给到前端人员展示在前端页面

2021-01-11 11:13

能源管理系统实时数据处理

兰石集团物联网系统是由兰石集团信息化与智能制造部主持建造，服务对象为兰石集团各生产单位。数据来源涵盖集团所有的生产和管理系统，建立从业务层到管理层到决策层的智能分析体系，模拟量化风险和收益，实现对集团各种业务数据进行分类、管理、统计和分析等功能，给各级管理人员提供各类准确的统计分析预测数据，使其能够及时掌握全面的经营状况，为宏观决策提供支持；为基层业务人员提供详尽的数据，供其对各自的工作目标、当前和历史状况进行准确的把握，对业务活动进行有效支撑；满足集团经营管理及决策支持，解决多类工业设备接入、多源工业数据集成、海量数据管理与处理、工业数据建模分析、工业应用创新与集成、工业知识积累迭代实现等一系列问题。负责内容数据通过mqtt回传进openTSDB数据库，连接本地历史数据库，拿到离线数据，使用sparkSQL进行数据清洗治理和计算工作，将计算结果存入结果表，通过FineReport报表展示工具进行报表化展示，返回结果给前端人员展示在物联网平台上。通过flume自定义source插件，采集rabbitMQ数据，接入kafka消息队列，通过kafka对接到hadoop相关组件，采用sparkStreaming进行实时数据分析，将结果写入库中供后端人员调用。维护集群日常运行，使用CDH监控集群状态，spark代码上线，spark任务提交使用技术 Flume、HDFS、Sparksql、Hive、Mysql、Sqoop、Kafka、Kettle、yarn、redis、hbase、zookeeper 实时数据处理 1. 由于公司使用rabbitMQ作为mqtt的消息队列，已知rabbitMQ对hadoop相关组件的兼容度较低，考虑到后面数据需要尽可能使用hadoop相关组件，所以使用自定义source配合Flume采集原始日志数据，汇聚传输到kafka 2. 配置kafka使用环境 3. 利用SparkStreaming接收kafka数据 4. 根据需求开发 ETL 分析语句，使用SparkStreaming分析得出设备水电气的相关用量和实时状态的统计结果 5. 将sparkStreaming处理后的数据存储到HBase，HBase使用Phoenix封装。

2021-01-11 11:12

数据仓库

兰石集团数据仓库主要面向目前兰石集团构建的ERP、MES、OA等系统，以及在这些系统中流转的数据作为继财务、人才、技术的新一种资产，还未被重视与利用，且体量庞大。大量的数据分散在各个业务系统、各级部门，且有很多仍旧在进行手工记录处理，缺少对数据集中管理、加工、利用、存储的规范。对企业内大量数据无法做到收集与积累，缺乏通过数据来推动业务改善、提升管理的有效手段。且各个系统间数据无法做到互通共享，无法有效利用，形成了数据孤岛。该项目主要以数据仓库体系为主，构建数据模型、完成数据治理工作、梳理数据业务、完成主数据与元数据的梳理，为即席查询报表体系、驾驶舱辅助决策体系提供数据支撑，同时，为将来构建数据中台打造良好的数据基础。负责内容参与数据仓库主题域划分，使用维度建模，各个主题下数仓模型设计与搭建。参与能源管理主题的业务梳理。参与数据治理工作的代码开发。负责数据可视化工作的报表、驾驶舱设计。使用技术 rabbitMQ、sparkSQL、Hive、Mysql、Sqoop、Hadoop、Yarn、CDH、Ureport、FineReport、FineBI

2021-01-11 11:10

更新于: 2021-01-11 浏览: 868

个人介绍

工作经历

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐