个人介绍
我是程序员客栈的 于明玉,一名 Python爬虫工程师;
我毕业于 天津城建大学,担任过 谷川联行(天津)科技有限公司 的 Python工程师;
负责过 天眼查全库数据大规模采集,150+垂直行业网站爬虫设计,基于Flink的企业级数据清洗交付 的开发;
熟练使用 Python爬虫(Requests/Selenium/Celery),数据预处理(Pandas/NumPy),大数据组件(Flink/Kafka/Hadoop),监控运维(Grafana/Prometheus),MySQL/MongoDB数据库;
如果我能帮上您的忙,请点击“立即预约”或“发布需求”!
工作经历
2023-11-11 -2025-05-01谷川联行(天津)科技有限公司爬虫工程师
内容: 主要负责公司工商整条业务线。 1.数据采集:负责数据采集工作,使用Python编写爬虫项目,主要采集天眼查数据,同时负责日常其他的采集任务,为公司 业务人员提供数据支持。 2.数据清洗:对采集到的数据进行清洗、去重、缺失值填充等预处理工作,保证后续的数据分析和建模的准确性。 3.数据交付:通过使用阿里云flink,kafka以及java api,确保数据可以正常交付。 4.服务器维护:负责公司本地机房各个服务的维护,确保服务器可以正常运行 业绩: 1. 成功采集了2亿+公司基础信息数据,13个数据块共计13亿数据量。 2. 重构了采集项目,数据全部更新周期由半年缩短至2个月左右。 3. 利用本地flink,阿里云flink,阿里云数仓成功清洗、存储并正常推送数据,确保数据正常更新。 4. 使用Grafana和Prometheus搭建采集监控以及服务器监控,降低维护成本。 5. 其他采集设计网站数量为150+,涉及多方面,包括不限于企业信息、品牌信息、电商店铺信息、省市区地区编码、新闻等
教育经历
2020-09-01 - 2024-06-30天津城建大学计算机科学与技术本科已认证


