proginn1550372769Python-程序员客栈

1月前来过

D级

学习者

哈尔滨

全职 · 300/日 · 6525/月信用一般

工作时间: 工作日18:00-20:00、周末12:30-17:00工作地点: 远程

服务企业: 0家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

基本信息

姓名：于之锋

· 学校：黑龙江工程学院计算机科学与技术

· 自学方向：Python爬虫开发

· 技术栈

分类技术

编程语言 Python

网络请求 Requests， Session 复用

页面解析 lxml， XPath，正则表达式

动态渲染 Selenium（配置无头模式、图片禁用、防检测）

数据存储文件系统（命名安全、防重、分类存储）

异常处理重试机制，超时控制，异常分类捕获

工程工具函数封装，路径管理，权限检测，磁盘空间检查

学习方向反爬策略， Scrapy，异步爬虫

项目经历

图书电商网站爬虫（独立完成）

项目简介

一个完整的静态爬虫项目，目标为图书类网站，实现多页数据抓取、清洗、存储全流程。

核心实现

自动翻页：通过循环控制页数，实现多页数据连续采集

· 字段提取：抓取书名、价格、图片链接等结构化数据

· 图片处理：图片链接提取 + 本地命名存储

· 数据清洗：去空格、去空值、标准化格式

工程细节

文件名安全处理：过滤非法字符，避免 Windows 路径错误

· 文件重名处理：自动版本号追加，防止覆盖

· 异常处理：网络超时、解析失败、文件写入错误均有捕获与重试

· 工具函数封装：将清洗、命名、路径处理独立成函数，提升复用性

项目成果

· 独立完成从需求分析到代码落地的全过程

· 代码结构清晰，具备基础的可维护性

· 已积累 40+ 爬虫常见问题总结文档

其他实践

51job 动态爬虫（开发中）

使用 Selenium 模拟搜索、翻页、详情页跳转

· 配置浏览器启动参数（无头、图片禁用、自动化特征隐藏）

· 正在完善日志系统与反爬应对机制

个人特点

注重代码健壮性：异常处理、重试机制、资源清理

· 有工程意识：函数拆分、路径管理、配置分离

· 问题驱动学习：总结 40+ 爬虫踩坑经验，持续补齐短板

· 全流程独立开发能力：从请求到存储，自己能跑通

2025-09-01 -至今个人技术学习阶段学习者
学习Python基础：掌握了变量、循环、函数、文件操作等核心语法完成基础爬虫练习：能够使用Requests获取静态网页，用BeautifulSoup解析简单页面目前正在：学习Scrapy框架/XPath选择器/反爬虫基础

2025-09-01 - 黑龙江工程学院计算机科学与技术本科

中文母语水平

Python掌握

作品

51_job职位信息爬取

1.具体功能模块：-关键词搜索-多页翻页抓取-职位详情页解析-数据清洗与结构化-文件自动保存与重名处理-日志记录与异常监控2.主要功能描述：用户输入岗位关键词，程序自动搜索51job网站，逐页抓取职位信息，包括职位名称、薪资、地区、经验要求、福利、岗位描述等字段。支持反爬机制（随机延迟、模拟人工点击

2026-03-13 17:29

更新于: 03-13 浏览: 64

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐