proginn1550372769
21小时前在线
全职 · 300/日  ·  6525/月
工作时间: 工作日18:00-20:00、周末12:30-17:00工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

基本信息

 姓名:于之锋

· 学校:黑龙江工程学院 计算机科学与技术

· 自学方向:Python爬虫开发

· 技术栈

分类 技术

编程语言 Python

网络请求 Requests, Session 复用

页面解析 lxml, XPath, 正则表达式

动态渲染 Selenium(配置无头模式、图片禁用、防检测)

数据存储 文件系统(命名安全、防重、分类存储)

异常处理 重试机制, 超时控制, 异常分类捕获

工程工具 函数封装, 路径管理, 权限检测, 磁盘空间检查

学习方向 反爬策略, Scrapy, 异步爬虫

项目经历

图书电商网站爬虫(独立完成)

项目简介

一个完整的静态爬虫项目,目标为图书类网站,实现多页数据抓取、清洗、存储全流程。

核心实现

 自动翻页:通过循环控制页数,实现多页数据连续采集

· 字段提取:抓取书名、价格、图片链接等结构化数据

· 图片处理:图片链接提取 + 本地命名存储

· 数据清洗:去空格、去空值、标准化格式

工程细节

文件名安全处理:过滤非法字符,避免 Windows 路径错误

· 文件重名处理:自动版本号追加,防止覆盖

· 异常处理:网络超时、解析失败、文件写入错误均有捕获与重试

· 工具函数封装:将清洗、命名、路径处理独立成函数,提升复用性

项目成果

· 独立完成从需求分析到代码落地的全过程

· 代码结构清晰,具备基础的可维护性

· 已积累 40+ 爬虫常见问题总结文档

 其他实践

51job 动态爬虫(开发中)

使用 Selenium 模拟搜索、翻页、详情页跳转

· 配置浏览器启动参数(无头、图片禁用、自动化特征隐藏)

· 正在完善日志系统与反爬应对机制

个人特点

注重代码健壮性:异常处理、重试机制、资源清理

· 有工程意识:函数拆分、路径管理、配置分离

· 问题驱动学习:总结 40+ 爬虫踩坑经验,持续补齐短板

· 全流程独立开发能力:从请求到存储,自己能跑通

工作经历

  • 2025-09-01 -至今个人技术学习阶段学习者

    学习Python基础:掌握了变量、循环、函数、文件操作等核心语法 完成基础爬虫练习:能够使用Requests获取静态网页,用BeautifulSoup解析简单页面 目前正在:学习Scrapy框架/XPath选择器/反爬虫基础

教育经历

  • 2025-09-01 - 黑龙江工程学院计算机科学与技术本科

语言

中文母语水平
0
1
2
3
4
5

技能

Python掌握
0
1
2
3
4
5
作品
51_job职位信息爬取

1.具体功能模块:-关键词搜索-多页翻页抓取-职位详情页解析-数据清洗与结构化-文件自动保存与重名处理-日志记录与异常监控2.主要功能描述:用户输入岗位关键词,程序自动搜索51job网站,逐页抓取职位信息,包括职位名称、薪资、地区、经验要求、福利、岗位描述等字段。支持反爬机制(随机延迟、模拟人工点击

1
2026-03-13 17:29
更新于: 2天前 浏览: 3