个人介绍
一、编程语言
Python:熟练掌握变量、循环、函数、异常处理、文件读写等基础语法,是爬虫开发的核心语言。
二、核心爬虫技能
HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。
HTML解析:使用 BeautifulSoup4 进行页面解析,掌握 find、find_all 方法定位元素,能够从复杂的HTML结构中提取目标数据。
动态网页爬取:正在学习 Playwright,能够处理需要JavaScript渲染的页面,掌握元素等待、点击、滚动等浏览器自动化操作。
数据提取:掌握基础的正则表达式,能够从文本中提取数字、日期、价格等特定模式的信息。
三、数据处理能力
数据清洗:使用 pandas 处理爬取下来的原始数据,能够去重、填充空值、统一格式、合并多表。这是交付干净数据的关键环节。
数据保存:能够将清洗后的数据导出为 Excel 或 CSV 文件,客户直接可用。
四、合规意识
协议遵守:理解 robots.txt 协议,尊重目标网站的爬取规则。
频率控制:使用 time.sleep 控制请求间隔,避免对目标网站造成压力,这是合规爬虫的基本要求。
边界判断:知道什么能爬(公开数据)、什么不能爬(需登录、涉及隐私、突破反爬)。
五、开发工具
PyCharm:主要开发环境,用于代码编写和调试。
Git与GitHub:能够进行版本管理,将爬虫项目上传至 GitHub 作为作品集展示。
六、可展示的实战项目3
豆瓣电影Top250爬取:完整实现了静态网页爬取、分页处理、数据清洗和 Excel 导出。共爬取 250 条电影数据,包含电影名、评分、一句话短评。
名言网站动态爬取练习:使用 Playwright 爬取动态渲染的网页,理解浏览器自动化的工作流程。
一句话定位
能够独立完成公开静态网页的数据采集与清洗,理解动态网页爬取原理,具备合规意识,交付客户可直接使用的结构化数据(Excel/CSV)。
Python:熟练掌握变量、循环、函数、异常处理、文件读写等基础语法,是爬虫开发的核心语言。
二、核心爬虫技能
HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。
HTML解析:使用 BeautifulSoup4 进行页面解析,掌握 find、find_all 方法定位元素,能够从复杂的HTML结构中提取目标数据。
动态网页爬取:正在学习 Playwright,能够处理需要JavaScript渲染的页面,掌握元素等待、点击、滚动等浏览器自动化操作。
数据提取:掌握基础的正则表达式,能够从文本中提取数字、日期、价格等特定模式的信息。
三、数据处理能力
数据清洗:使用 pandas 处理爬取下来的原始数据,能够去重、填充空值、统一格式、合并多表。这是交付干净数据的关键环节。
数据保存:能够将清洗后的数据导出为 Excel 或 CSV 文件,客户直接可用。
四、合规意识
协议遵守:理解 robots.txt 协议,尊重目标网站的爬取规则。
频率控制:使用 time.sleep 控制请求间隔,避免对目标网站造成压力,这是合规爬虫的基本要求。
边界判断:知道什么能爬(公开数据)、什么不能爬(需登录、涉及隐私、突破反爬)。
五、开发工具
PyCharm:主要开发环境,用于代码编写和调试。
Git与GitHub:能够进行版本管理,将爬虫项目上传至 GitHub 作为作品集展示。
六、可展示的实战项目3
豆瓣电影Top250爬取:完整实现了静态网页爬取、分页处理、数据清洗和 Excel 导出。共爬取 250 条电影数据,包含电影名、评分、一句话短评。
名言网站动态爬取练习:使用 Playwright 爬取动态渲染的网页,理解浏览器自动化的工作流程。
一句话定位
能够独立完成公开静态网页的数据采集与清洗,理解动态网页爬取原理,具备合规意识,交付客户可直接使用的结构化数据(Excel/CSV)。
工作经历
2026-05-01 -至今无无职位
HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。 HTML解析:使用 BeautifulSoup4 进行页面解析,掌握 find、find_all 方法定位元素,能够从复杂的HTML结构中提取目标数据。 动态网页爬取:正在学习 Playwright,能够处理需要JavaScript渲染的页面,掌握元素等待、点击、滚动等浏览器自动化操作。 数据提取:掌握基础的正则表达式,能够从文本中提取数字、日期、价格等特定模式的信息。
教育经历
2025-09-01 - 郑州西亚斯人工智能本科
学习了python,高等数学,操作系统,成绩一般,排名位置中 HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。 HTTP请求:使用 requests 库发送GET/POST请求,添加请求头伪装浏览器,处理超时和重试。
语言
中文母语水平
英语借工具书面交流
0
1
2
3
4
5
技能
Python熟悉
0
1
2
3
4
5
作品

一、数据采集从公开网页中自动化获取信息,替代人工复制粘贴。支持单页采集、多页遍历、按关键词筛选。可采集文本、表格、链接、图片地址等内容。二、数据解析从杂乱的HTML中精准提取目标字段。支持按标签名、class属性、CSS选择器定位元素,能够处理分页、列表、详情页等常见结构。三、数据清洗对采集到的原始
2026-05-23 16:31



