mrpora-北京Python-程序员客栈

1月前来过

C级

高级大数据开发工程师

北京

全职 · 500/日 · 10875/月信用正常

工作时间: 工作日20:00-23:00、周末09:00-20:00工作地点: 朝阳远程

服务企业: 1家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

高级大数据开发工程师

技术栈：Hadoop、HBase、Hive、Python、Spark、Storm、Kafka、Flume、Zookeeper、Flink、阿里dataworks等

理解并掌握Java编程原理，熟悉Java虚拟机基础知识

掌握python语言编程基础，了解selenium、scapy爬虫编写，了解django web框架

熟练使用Linux操作命令，掌握基本的shell脚本编程

理解Mysql的视图、事务、存储过程

熟练掌握eclipse、pycharm、IDEA等开发工具；了解Maven构建项目流程

熟悉Hadoop生态圈常用工具信息，对Hadoop、HBase、Hive、Spark、Flink工具熟练应用

深入了解hadoop中HDFS工作原理，阅读过部分FileSystem、FileStatus、FileUtil源代码

深入了解MR运行原理，阅读过Mapper、Shuffle过程（分区、分组、排序）、Reducer、分片、Writable的源代码

熟练MapReduce编程：分片、Writable、分区、分组、排序、倒排、连接

掌握Spark编程基础：RDD，SparkSQL，Spark Streaming

具备独立完成Flume+Kafka+Storm实现简单实时的应用能力

理解HBase工作原理和运行原理

理解Hive工作原理，熟练常用HiveQL语句，掌握编写UDF函数编写

熟悉elasticsearch大文本搜索技术

熟悉配置并使用xxljob分布式任务调度系统

熟悉MongoDB简单查询语句

该用户选择隐藏工作经历信息，如需查看详细信息，可点击右上角“和TA聊一聊”查看

2014-09-01 - 2018-06-30东北农业大学成栋学院软件工程本科已认证
本科就读于东北农业大学成栋学院软件工程专业。学校开设数据库概论、数据结构与算法、编程语言基础、线性代数、概率论等专业课程。

Shell熟悉

SpringCloud熟悉

Redis掌握

Zookeeper掌握

Java掌握

Torch掌握

Python熟练

Kafka熟练

Hadoop熟练

作品

基于多模态大模型（LMM）的笔记流推荐系统设计 - 从“猜你喜欢”到“懂你所需”

基于多模态大模型(ImageBind)的推荐系统，主要解决传统协同过滤算法的冷启动问题和信息茧房现象。系统通过深度语义理解内容特征，能够实现跨模态推荐，并提供更加多样化的推荐结果。系统主要分为离线处理层、数据存储层和在线服务层三个部分，采用召回-排序的两阶段推荐架构。在召回阶段使用多种策略并行检索候

2025-11-05 16:43

预购行为分析系统

所用技术：hadoop、hive、hbase、sqoop、Python、Spark 开发环境：eclipse、pycharm 2017.03、jdk 1.8.0、mysql 5.1.10、maven 3.5 项目描述：通过Python按指定网址范围爬数据，将原始信息存入HDFS中。对采集的数据进行处理，将信息来源与内容存入hbase中。编写自定义hive UDF函数，对用户回复信息进行中文分词处理。通过HiveQL对数据进行分析统计，将统计结果存入Hive内部表内，通过Sqoop将结果导入至Mysql，供前台用户使用。负责模块：  将原始数据csv文件中的内容通过Java调用，再通过HDFS API上传至HDFS指定文件夹  地址生成库：MapReduce清洗数据，取出一级网址名称，取出最长网址名称，通过正则表达式去除记录图片、文件的网址和空网址，去除非用户行为数据  对原始数据中每个网址的内容利用现有的庖丁解牛包进行中文分词：（1）了解庖丁解牛中文分词工具（2）利用庖丁解牛中文分词工具编写hive UDF自定义函数（3）编写对业务数据进行中文分词处理的hiveQL语句Demo，供项目组参考使用  整理地址库：对行为地址进行分类，对产品地址进行分类，提取行为地址分词数据  Mapreduce程序部分：（1）数据清洗：使用mapreduce中的map程序（不使用reduce）去除原始数据中不符合规定数据格式数据，及非用户主观行为（广告，配置数据等）数据。（2）行为匹配：MapReduce关联行为地址库识别用户访问行为，标识用户行为分类。（3）用户行为统计：统计用户行为地址访问次数，识别用户高频访问地址。（4）整体行为统计：统计热门地址，用户访问最多地址及访问人数。（5）产品匹配：关联产品地址库标识用户行为匹配中的产品地址。（6）用户产品统计：统计用户高频访问地址。（7）整体产品统计：统计产品整体热门程度。（8）用户行为top提取：提取用户高频地址，用于缩小数据范围，用户整体行为地址数据量比较大，不利于关系数据库存储。（9）用户行为画像：关联行为分类数据统计用户各分类情况。（10）预购用户群提取：从行为匹配数据中提取预购用户群。  Spark程序：（1）协同过滤：根据用户数据访问情况，利用协同过滤算法为用户对产品的喜好打分，评估喜欢程度。（2）产品相似：关联产品分类数据，对未能协同过滤推荐用户提取访问产品，根据产品分类推荐相似产品。（3）关联规则：分析用户产品访问的关联规则模型，根据关联规则模型对用户的访问情况进行产品推荐。  Hadoop平台调度脚本执行项目功能：定Shell脚本，用于程序调度、启动mapreduce和spark程序。  程序部署：Mapreduce程序和spark程序导出jar包，与sh调度脚本部署到同一工作目录即可。

2023-09-26 11:28

微信公众号平台广告投放

所用技术：hadoop、hbase、phoenix、kafka、redis、SparkStreaming 开发环境：IDEA 2020.03、jdk 1.8.0、mysql 5.1.10、maven 3.5 项目描述：通过对H5页面埋点获取用户操作信息。对该信息进行用户行为分析，过滤作弊数据，计算uv与花销。后续对各个小游戏流量数据进行新用户数统计、访问人数、跳出率、留存率等运营指标进行统计，能够帮助运营同事实时查看数据，提升产品精准运营效果，以及反馈给投放引擎，及时对投放广告进行调整。负责模块：  实时数仓设计，数仓采用4层设计（ods dwd dws ads），建模使用维度模型（星座模型）  实时代码开发，计算批次点击、曝光、计费PV和UV等业务指标，并进行实时扣费  离线代码开发，对实时数据结果进行每小时、每天统计  处理客户反馈问题，日均TB级数据处理，部分实时业务峰值800w条/批  本项目大数据部分主要负责人，协调前端、php、后端与大数据组之间工作。并负责项目大数据部分上线部署，并保证上线后能正常运行项目建构：  利用js埋点上报数据到Nginx，使用go语言对日志数据进行解密，并上传到kakfa。后续对接sparkstreaming进行实时分析和flume采集到hdfs进行永久存盘  利用Maxwell监控MySQL的binlog文件，抓取到对应表的实时新增变化的数据，推送到Kafka对应的topic中。  通过SparkStreaming主动消费kafka数据，对日志数据进行用户行为分析，过滤作弊数据。并开启背压等优化。  中间层数据保存到kafka中，保证实时读取效率，并用flume采集到hdfs进行永久存盘。  手动维护Kafka消费的偏移量，将偏移量存储在Redis中和MySQL中，实现精确一次消费。  最终结果保存到Phoenix中，并创建二级索引，提升查询效率。  实时扣费数据保存到redis中，并在每天0时通过离线程序进行校准。  从Hbase+phoenix中读取数据并发布接口，对接可视化模块。

2023-09-26 11:26

更新于: 2023-09-26 浏览: 434

个人介绍

工作经历和TA聊聊
APP扫码和程序员直接沟通

教育经历

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐