全职 · 300/日 · 6525/月信用正常
工作时间: 工作日09:00-20:00、周末10:00-07:00工作地点:
远程
服务企业:
13家累计提交:
3工时
聊一聊
个人介绍
我是一名专注于 Python 爬虫与后端开发 的工程师,熟悉从数据采集、清洗、存储、接口设计到后台系统部署的完整流程。精通 Python、FastAPI、Flask、Scrapy、Celery、MySQL、Redis、MongoDB、Docker 等技术栈,能够独立设计和实现中小型后端服务与分布式采集系统。工作中注重代码结构、性能优化与系统可靠性,热衷于用自动化手段解决繁琐重复的任务。
项目经验
一、智能电商数据采集与价格监控系统
项目周期:2023.01 – 2023.11
角色职责:独立开发与部署
技术栈:Python、Scrapy、Redis、Celery、FastAPI、MongoDB、Docker
项目背景:公司业务需要实时监控多个电商平台(淘宝、京东、拼多多等)的商品价格、库存、评价数量,以支持市场分析与价格策略调整。
工作内容与成果:
1. 基于 Scrapy + Redis 设计分布式爬虫架构,支持多节点任务并行调度与断点续爬;
2. 使用 Celery 异步任务队列 实现任务调度、重试与结果汇总,提高任务可控性与稳定性;
3. 构建 MongoDB 数据存储结构,支持字段动态映射与索引优化;
4. 开发 FastAPI 后台接口,用于数据查询、趋势统计和导出功能;
5. 集成 IP 代理池管理模块(自动检测与轮换),有效规避访问限制;
6. 部署在 Docker 环境中,异地两台服务器协同运行,实现数据采集量约 300 万条/天;
7. 采集成功率达 98%,平均延迟小于 3 分钟,系统长期稳定运行。
二、内容聚合与管理后台系统
项目周期:2022.05 – 2022.12
角色职责:后端负责人
技术栈:FastAPI、SQLAlchemy、MySQL、Redis、Vue3、Docker、Nginx
项目背景:为公司资讯产品线开发的内部内容聚合平台,需统一管理不同网站与自媒体来源内容,实现审稿、搜索与统计等功能。
主要工作成果:
1. 使用 FastAPI + MySQL 实现 RESTful API 服务,支持文章录入、更新、分类、搜索与审核流程;
2. 引入 Redis 缓存层 提升接口响应速度,平均接口响应时间缩短 65%;
3. 实现用户登录鉴权和角色权限控制模块;
4. 通过 ElasticSearch 集成全文检索,支持模糊搜索与多字段条件筛选;
5. 使用 APScheduler 实现定时任务,每日自动抓取新资讯并同步至数据库;
6. 使用 Docker Compose + GitHub Actions 自动部署上线;
7. 系统支持日均数据量超过 20 万条,管理端操作流畅稳定。
三、企业数据调度与监控平台
项目周期:2021.06 – 2022.03
角色职责:后端开发
技术栈:Flask、Airflow、MySQL、Redis、Nginx
项目背景:为公司内部多个业务部门提供数据同步、清洗及调度任务的统一管理功能,减少人工执行工作。
主要工作成果:
1. 利用 Airflow 搭建任务调度系统,实现跨库数据同步(MySQL ⇄ MongoDB ⇄ ES);
2. 开发 Flask 后台服务,提供任务管理、日志记录、失败重试、任务依赖等功能;
3. 支持任务状态可视化展示,异常情况实时发送告警信息***br>4. 设计任务模板机制,不同业务团队可快速新增任务脚本;
5. 平均每日执行任务数 600+,执行成功率提升至 99%,极大降低人工维护成本。
四、分布式爬虫监控与日志分析系统
项目周期:2020.10 – 2021.05
角色职责:系统设计与开发
技术栈:Python、aiohttp、MySQL、ElasticSearch、Grafana
项目简介:为公司采集团队搭建一套统一的爬虫任务监控与日志分析系统,实时展现任务状态与抓取数据质量。
主要成果:
1. 使用 aiohttp + asyncio 实现轻量级异步消息上报机制,采集节点可实时回传任务进度;
2. 将日志数据写入 ElasticSearch,并在 Grafana 上实现可视化展示;
3. 设计异常检测规则,如错误率升高、响应超时等场景自动触发通知;
4. 系统支持上百个爬虫节点并发报告数据,具备良好的扩展性与性能表现。
技术理念
我注重项目的全生命周期设计,从爬虫策略、任务调度到后端接口与数据库设计,都以“稳定、灵活、可观察”为核心。
在项目中,我常使用自动化、并发与缓存优化等手段提升性能,同时注重日志与错误监控,追求让系统自愈和可持续维护。未来希望在 数据采集平台化、分布式架构设计与服务性能优化 方面继续深耕,用技术为业务提供更强的支撑。
项目经验
一、智能电商数据采集与价格监控系统
项目周期:2023.01 – 2023.11
角色职责:独立开发与部署
技术栈:Python、Scrapy、Redis、Celery、FastAPI、MongoDB、Docker
项目背景:公司业务需要实时监控多个电商平台(淘宝、京东、拼多多等)的商品价格、库存、评价数量,以支持市场分析与价格策略调整。
工作内容与成果:
1. 基于 Scrapy + Redis 设计分布式爬虫架构,支持多节点任务并行调度与断点续爬;
2. 使用 Celery 异步任务队列 实现任务调度、重试与结果汇总,提高任务可控性与稳定性;
3. 构建 MongoDB 数据存储结构,支持字段动态映射与索引优化;
4. 开发 FastAPI 后台接口,用于数据查询、趋势统计和导出功能;
5. 集成 IP 代理池管理模块(自动检测与轮换),有效规避访问限制;
6. 部署在 Docker 环境中,异地两台服务器协同运行,实现数据采集量约 300 万条/天;
7. 采集成功率达 98%,平均延迟小于 3 分钟,系统长期稳定运行。
二、内容聚合与管理后台系统
项目周期:2022.05 – 2022.12
角色职责:后端负责人
技术栈:FastAPI、SQLAlchemy、MySQL、Redis、Vue3、Docker、Nginx
项目背景:为公司资讯产品线开发的内部内容聚合平台,需统一管理不同网站与自媒体来源内容,实现审稿、搜索与统计等功能。
主要工作成果:
1. 使用 FastAPI + MySQL 实现 RESTful API 服务,支持文章录入、更新、分类、搜索与审核流程;
2. 引入 Redis 缓存层 提升接口响应速度,平均接口响应时间缩短 65%;
3. 实现用户登录鉴权和角色权限控制模块;
4. 通过 ElasticSearch 集成全文检索,支持模糊搜索与多字段条件筛选;
5. 使用 APScheduler 实现定时任务,每日自动抓取新资讯并同步至数据库;
6. 使用 Docker Compose + GitHub Actions 自动部署上线;
7. 系统支持日均数据量超过 20 万条,管理端操作流畅稳定。
三、企业数据调度与监控平台
项目周期:2021.06 – 2022.03
角色职责:后端开发
技术栈:Flask、Airflow、MySQL、Redis、Nginx
项目背景:为公司内部多个业务部门提供数据同步、清洗及调度任务的统一管理功能,减少人工执行工作。
主要工作成果:
1. 利用 Airflow 搭建任务调度系统,实现跨库数据同步(MySQL ⇄ MongoDB ⇄ ES);
2. 开发 Flask 后台服务,提供任务管理、日志记录、失败重试、任务依赖等功能;
3. 支持任务状态可视化展示,异常情况实时发送告警信息***br>4. 设计任务模板机制,不同业务团队可快速新增任务脚本;
5. 平均每日执行任务数 600+,执行成功率提升至 99%,极大降低人工维护成本。
四、分布式爬虫监控与日志分析系统
项目周期:2020.10 – 2021.05
角色职责:系统设计与开发
技术栈:Python、aiohttp、MySQL、ElasticSearch、Grafana
项目简介:为公司采集团队搭建一套统一的爬虫任务监控与日志分析系统,实时展现任务状态与抓取数据质量。
主要成果:
1. 使用 aiohttp + asyncio 实现轻量级异步消息上报机制,采集节点可实时回传任务进度;
2. 将日志数据写入 ElasticSearch,并在 Grafana 上实现可视化展示;
3. 设计异常检测规则,如错误率升高、响应超时等场景自动触发通知;
4. 系统支持上百个爬虫节点并发报告数据,具备良好的扩展性与性能表现。
技术理念
我注重项目的全生命周期设计,从爬虫策略、任务调度到后端接口与数据库设计,都以“稳定、灵活、可观察”为核心。
在项目中,我常使用自动化、并发与缓存优化等手段提升性能,同时注重日志与错误监控,追求让系统自愈和可持续维护。未来希望在 数据采集平台化、分布式架构设计与服务性能优化 方面继续深耕,用技术为业务提供更强的支撑。
工作经历
2017-06-01 -至今青木科技有限公司Python后端工程师
负责公司核心业务系统的后端架构设计与功能开发,参与从需求分析、接口设计到上线部署的完整流程; 使用 FastAPI、Flask 等框架编写高性能 RESTful API 服务,为前端及移动端提供稳定数据支持,接口平均响应时间低于 100 毫秒; 主导设计并实现分布式任务调度系统,结合 Celery 与 Redis 管理异步任务,支持数据采集、消息队列与批量分析任务的自动化执行; 负责公司内部爬虫平台开发,基于 Scrapy 与多线程异步协程机制构建高并发采集框架,日均采集数据量达百万级; 优化数据库结构与查询性能,使用 MySQL、MongoDB、Redis 构建多层存储体系,通过索引优化与缓存策略将查询性能提升 70%; 搭建容器化部署环境,利用 Docker + GitHub Actions 实现代码自动构建与持续集成,提高交付效率; 实施日志与监控体系建设,引入 ELK(ElasticSearch + Logstash + Kibana)监控接口与任务健康状态,实现异常自动告警与数据可视化; 参与系统性能调优与架构优化,逐步将部分模块改造为微服务架构,提高扩展性与可维护性; 协助
教育经历
2014-07-01 - 2017-07-12广东岭南职业技术学院计算机科学与技术大专
主修计算机科学与技术
语言
中文母语水平
0
1
2
3
4
5
用户评价
proginn0901058744
认真负责响应快,再完成开发需求的基础上给了很多建议和方案,整体开发项目完成情况超预期
新代码
可以 认真负责
我是世界的大佬
能力强,态度好







