hizhu
3小时前在线
全职 · 300/日  ·  6525/月
工作时间: 工作日9:00-19:30工作地点: 远程
服务企业: 0家累计提交: 0工时
聊一聊

APP聊一聊

个人介绍

一、编程语言

Python:熟练掌握变量、循环、函数、异常处理、文件读写等基础语法,是爬虫开发的核心语言。

二、核心爬虫技能

HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。

HTML解析:使用 BeautifulSoup4 进行页面解析,掌握 find、find_all 方法定位元素,能够从复杂的HTML结构中提取目标数据。

动态网页爬取:正在学习 Playwright,能够处理需要JavaScript渲染的页面,掌握元素等待、点击、滚动等浏览器自动化操作。

数据提取:掌握基础的正则表达式,能够从文本中提取数字、日期、价格等特定模式的信息。

三、数据处理能力

数据清洗:使用 pandas 处理爬取下来的原始数据,能够去重、填充空值、统一格式、合并多表。这是交付干净数据的关键环节。

数据保存:能够将清洗后的数据导出为 Excel 或 CSV 文件,客户直接可用。

四、合规意识

协议遵守:理解 robots.txt 协议,尊重目标网站的爬取规则。

频率控制:使用 time.sleep 控制请求间隔,避免对目标网站造成压力,这是合规爬虫的基本要求。

边界判断:知道什么能爬(公开数据)、什么不能爬(需登录、涉及隐私、突破反爬)。

五、开发工具

PyCharm:主要开发环境,用于代码编写和调试。

Git与GitHub:能够进行版本管理,将爬虫项目上传至 GitHub 作为作品集展示。

六、可展示的实战项目3

豆瓣电影Top250爬取:完整实现了静态网页爬取、分页处理、数据清洗和 Excel 导出。共爬取 250 条电影数据,包含电影名、评分、一句话短评。

名言网站动态爬取练习:使用 Playwright 爬取动态渲染的网页,理解浏览器自动化的工作流程。

一句话定位

能够独立完成公开静态网页的数据采集与清洗,理解动态网页爬取原理,具备合规意识,交付客户可直接使用的结构化数据(Excel/CSV)。

工作经历

  • 2026-05-01 -至今无职位

    HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。 HTML解析:使用 BeautifulSoup4 进行页面解析,掌握 find、find_all 方法定位元素,能够从复杂的HTML结构中提取目标数据。 动态网页爬取:正在学习 Playwright,能够处理需要JavaScript渲染的页面,掌握元素等待、点击、滚动等浏览器自动化操作。 数据提取:掌握基础的正则表达式,能够从文本中提取数字、日期、价格等特定模式的信息。

教育经历

  • 2025-09-01 - 郑州西亚斯人工智能本科

    学习了python,高等数学,操作系统,成绩一般,排名位置中 HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。 HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。

语言

中文母语水平
英语借工具书面交流
0
1
2
3
4
5
0
1
2
3
4
5

技能

Python熟悉
0
1
2
3
4
5
作品
静态网页网络爬虫

一、数据采集从公开网页中自动化获取信息,替代人工复制粘贴。支持单页采集、多页遍历、按关键词筛选。可采集文本、表格、链接、图片地址等内容。二、数据解析从杂乱的HTML中精准提取目标字段。支持按标签名、class属性、CSS选择器定位元素,能够处理分页、列表、详情页等常见结构。三、数据清洗对采集到的原始

0
2026-05-23 16:31
网络爬虫项目

核心能力概述:熟练掌握Python数据采集技术栈,能够独立完成从网页请求、数据解析到清洗存储的完整数据采集流程。擅长处理静态网页、公开API接口等合规数据源,交付Excel/CSV/JSON等多种格式的结构化数据。功能模块清单:模块名称功能说明技术要点网页爬取模块自动化获取目标页面内容request

0
2026-05-22 17:11
下载次数:0
¥100
更新于: 1天前 浏览: 3