



个人介绍
具备在Linux环境下开发的经验,熟练使用基本shell脚本。
熟悉Hadoop框架,对yarn工作机制和MapReduce的shuffle机制有较好的理解,能够独立搭建及使用Hadoop生态圈的组件。
熟悉Kafka的基本架构及原理,熟悉Kafka作为消息中间件在处理离线数据或实时数据中的使用,熟悉Kafka的生产者、Broker及消费者的工作原理,熟悉Kafaka的部署及常见的优化。
熟悉HBase的基本架构,读写流程,RowKey设计原则,MemStore刷写机制。
熟悉Zookeeper的基本使用,理解Zookeeper的选举机制及状态。
熟练使用Flume框架搭建日志采集系统,熟悉三大组件的常见类型和作用,运维维护flume集群。
熟练使用Hive对于HDFS上的数据进行离线分析处理,熟悉Hive中的基本函数、窗口函数以及自定义函数的使用,熟悉Hive常见的调优。
熟练使用SparkCore的API,以及SparkSQL对于数据的处理,理解Spark的任务提交,阶段划分,执行流程及常用的调优手段。
10.熟练使用SparkStreaming对于微小批次数据的处理,熟练使用SparkStreaming中的原语(算子),实现数据的处理及实时分析。
11.熟悉面向对象编程的思想,能灵活使用线程、集合,熟悉常用的(单例模式,懒汉,饿汉)设计模式以及常用的算法(冒泡,选择),具有良好的编码习惯。
工作经历
2025-04-01 -至今北京宇信技术开发
主要运维hbase集群 hbase中region治理,批量治理不同租户的region情况, 查看不同租户的表,查看表所占用的region数量。将小于6g的region数量合并,根据region总量分级别统计治理等级。分gb和mb不同的治理方式等
2018-08-01 -2022-02-01北京锐安大数据开发工程师
标签平台产品基于多种的业务场景,对数据进行分类标识,通过完善的标签体系从业务视角将数据精细化标识化。智能易用的标签管理界面、高效稳定的标签引擎以及精准体系化的标签内容组成标签平台,实现对标签全生命周期的管理,覆盖多警种的业务需求。 标签平台首先提供标准化的打标规则,由预处理进行实时打标,标签引擎进行离线打标,提供给业务系统或多警种业务场景使用,并对标签和中标数据进行多维度的统计分析,从而进行标签内容和体系的演进老化,反哺标签规则的生产,形成标签闭环工程化管理;标签平台产品分为标签引擎、标签调度、web管理三大部分。 责任描述: 1.负责标签引擎需求的研讨与开发。 制定排期计划,定期完成标签平台三大模块的联调。 2.负责标签引擎任务的维护和监控。 3.负责标签引擎功能与数据平台的对接。 4.负责负责标签信息数据的统计和入库。 5.负责安装标签引擎任务的运行环境 6.负责分析检验标签引擎数据打标的结果。 7.负责各个地市标签任务的核对和运维。 技术描述: 1.根据策略文件读取hdfs存储的对象数据,hbase库中的 数据,以及关系型数据库存储的数据。 2.解析protobuf数据结构,
教育经历
2012-09-01 - 2016-06-01济南大学社会体育本科
在本专业期间,学习计算机,取得相关计算机证书。后期在北京人民大学,在概率论与统计方向学习大数据相关内容。取的结业证书
技能

标签平台产品基于多种的业务场景,对数据进行分类标识,通过完善的标签体系从业务视角将数据精细化标识化。智能易用的标签管理界面、高效稳定的标签引擎以及精准体系化的标签内容组成标签平台,实现对标签全生命周期的管理,覆盖多警种的业务需求。 标签平台首先提供标准化的打标规则,由预处理进行实时打标,标签引擎进行离线打标,提供给业务系统或多警种业务场景使用,并对标签和中标数据进行多维度的统计分析,从而进行标签内容和体系的演进老化,反哺标签规则的生产,形成标签闭环工程化管理;标签平台产品分为标签引擎、标签调度、web管理三大部分。 责任描述: 1.负责标签引擎需求的研讨与开发。 制定排期计划,定期完成标签平台三大模块的联调。 2.负责标签引擎任务的维护和监控。 3.负责标签引擎功能与数据平台的对接。 4.负责负责标签信息数据的统计和入库。 5.负责安装标签引擎任务的运行环境 6.负责分析检验标签引擎数据打标的结果。 7.负责各个地市标签任务的核对和运维。 技术描述: 1.根据策略文件读取hdfs存储的对象数据,hbase库中的 数据,以及关系型数据库存储的数据。 2.解析protobuf数据结构,按照数据的类型,将最终的标 签数据分别存储在标签库、原始库、对象库中。 3.对标签的中标数据进行统计,统计中标数据的总量、来源,以及日志标签中标数据来源的大协议、小协议、动作类型、采 集地,并支持通过多种方式筛选查看。


治理不同租户下的hbase表的region问题。 通过过户器找到对下租户下的表,通过各种筛选条件筛选不同表的region信息,对于region大小mb级别数据的region进行合并。region大于4.5g不需要治理,对于大于10g的region进行分裂。对于mb级别数据的region两两合并,不符合条件的数据跳过不合并等。
