michaelzhu
1月前来过
全职 · 1500/日  ·  32625/月
工作时间: 工作日9:30-21:30、周末9:30-21:30工作地点: 远程
服务企业: 3家累计提交: 2工时
联系方式:
********
********
********
聊一聊

使用APP扫码聊一聊

个人介绍

专注数据爬虫和大数据15年,个人拥有20T的数据;
精通python,php,js,node,自动化测试;
精通hadoop,spark,mongodb,mysql等常用大数据平台;
熟悉常用数据类工具,以及常见自动化爬虫策略,以及大数据质治理以及数据平台建设。
熟悉数据分析和数据可视化,如pc端和手机端。
应用不限于工具,只考虑最合适的策略。
熟悉常用的和爬虫以及大数据相关的数据处理算法和策略,比如反爬,移动检测,和通用手机端反编译策略

工作经历

  • 2011-06-01 -2015-01-01数聚科技高级架构师

    主要负责企业爬虫技术框架的搭建和数据解析以及识别 负责数据标注和数据配对验证的算法研究 负责主要逻辑实现 主要技术nlp,ac自动机算法,网页和xml解析质量检测算法

教育经历

  • 1999-09-01 - 2003-06-01湖北大学计算机应用技术本科

    计算机应用专业相关课程的学习,取得计算机应用专业学士学位

技能

Flask
ElasticSearch
Hadoop
Mongo
多线程
系统架构
自动化测试
jQuery
0
1
2
3
4
5
0
1
2
3
4
5
作品
2017简历优化和自动判别系统

主要是自动化解析职位和简历的信息,涉及到150多个字段 采用机器学习和正则判别的方式进行识别,并使用自 动机对重复和无效数据进行快速过滤 设置数据达到1亿以上,有效识别率95%。

0
2021-06-15 15:49
2015年全网电商比价系统

涉及电商平台,淘宝,天猫,京东,当当,唯品会等平台,对分类商品进行价格监控 分析商品的价格在不同维度属性的变化,主要涉及平台,节假日,商品产地,品牌,主要成分,适用人群以店铺等近20个维度,从而找出时间段里产值最大化产品和主要竞争对手

0
2021-06-15 15:45
2012年微博全平台爬虫系统

主要是针对微博的全平台分布式爬虫,采用java和python开发,使用mysql以及mycat应用,针对大数据量的处理,采用分布式存储和阶段滞后解析策略,日处理数据5000万 无特殊图片

0
2021-06-15 15:40
更新于: 2021-06-15 浏览: 154