proginn1926352051
1月前来过
全职 · 300/日  ·  6525/月
工作时间: 工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

我是程序员客栈的 于明玉,一名 Python爬虫工程师

我毕业于 天津城建大学,担任过 谷川联行(天津)科技有限公司Python工程师

负责过 天眼查全库数据大规模采集150+垂直行业网站爬虫设计基于Flink的企业级数据清洗交付 的开发;

熟练使用 Python爬虫(Requests/Selenium/Celery)数据预处理(Pandas/NumPy)大数据组件(Flink/Kafka/Hadoop)监控运维(Grafana/Prometheus)MySQL/MongoDB数据库

如果我能帮上您的忙,请点击“立即预约”或“发布需求”!

工作经历

  • 2023-11-11 -2025-05-01谷川联行(天津)科技有限公司爬虫工程师

    内容: 主要负责公司工商整条业务线。 1.数据采集:负责数据采集工作,使用Python编写爬虫项目,主要采集天眼查数据,同时负责日常其他的采集任务,为公司 业务人员提供数据支持。 2.数据清洗:对采集到的数据进行清洗、去重、缺失值填充等预处理工作,保证后续的数据分析和建模的准确性。 3.数据交付:通过使用阿里云flink,kafka以及java api,确保数据可以正常交付。 4.服务器维护:负责公司本地机房各个服务的维护,确保服务器可以正常运行 业绩: 1. 成功采集了2亿+公司基础信息数据,13个数据块共计13亿数据量。 2. 重构了采集项目,数据全部更新周期由半年缩短至2个月左右。 3. 利用本地flink,阿里云flink,阿里云数仓成功清洗、存储并正常推送数据,确保数据正常更新。 4. 使用Grafana和Prometheus搭建采集监控以及服务器监控,降低维护成本。 5. 其他采集设计网站数量为150+,涉及多方面,包括不限于企业信息、品牌信息、电商店铺信息、省市区地区编码、新闻等

教育经历

  • 2020-09-01 - 2024-06-30天津城建大学计算机科学与技术本科已认证

语言

中文母语水平
0
1
2
3
4
5

技能

Python掌握
0
1
2
3
4
5
更新于: 03-21 浏览: 2