hizhu人工智能-程序员客栈

1月前来过

D级

无职位

郑州

全职 · 300/日 · 6525/月信用正常

工作时间: 工作日9:00-19:30工作地点: 远程

服务企业: 0家累计提交: 0工时

立即雇佣

聊一聊

APP聊一聊

去下载APP

主页

一、编程语言

Python：熟练掌握变量、循环、函数、异常处理、文件读写等基础语法，是爬虫开发的核心语言。

二、核心爬虫技能

HTTP请求：使用 requests 库发送GET/POST请求，添加请求头伪装浏览器，处理超时和重试。

HTML解析：使用 BeautifulSoup4 进行页面解析，掌握 find、find_all 方法定位元素，能够从复杂的HTML结构中提取目标数据。

动态网页爬取：正在学习 Playwright，能够处理需要JavaScript渲染的页面，掌握元素等待、点击、滚动等浏览器自动化操作。

数据提取：掌握基础的正则表达式，能够从文本中提取数字、日期、价格等特定模式的信息。

三、数据处理能力

数据清洗：使用 pandas 处理爬取下来的原始数据，能够去重、填充空值、统一格式、合并多表。这是交付干净数据的关键环节。

数据保存：能够将清洗后的数据导出为 Excel 或 CSV 文件，客户直接可用。

四、合规意识

协议遵守：理解 robots.txt 协议，尊重目标网站的爬取规则。

频率控制：使用 time.sleep 控制请求间隔，避免对目标网站造成压力，这是合规爬虫的基本要求。

边界判断：知道什么能爬（公开数据）、什么不能爬（需登录、涉及隐私、突破反爬）。

五、开发工具

PyCharm：主要开发环境，用于代码编写和调试。

Git与GitHub：能够进行版本管理，将爬虫项目上传至 GitHub 作为作品集展示。

六、可展示的实战项目3

豆瓣电影Top250爬取：完整实现了静态网页爬取、分页处理、数据清洗和 Excel 导出。共爬取 250 条电影数据，包含电影名、评分、一句话短评。

名言网站动态爬取练习：使用 Playwright 爬取动态渲染的网页，理解浏览器自动化的工作流程。

一句话定位

能够独立完成公开静态网页的数据采集与清洗，理解动态网页爬取原理，具备合规意识，交付客户可直接使用的结构化数据（Excel/CSV）。

2026-05-01 -至今无无职位
HTTP请求：使用 requests 库发送GET/POST请求，添加请求头伪装浏览器，处理超时和重试。 HTML解析：使用 BeautifulSoup4 进行页面解析，掌握 find、find_all 方法定位元素，能够从复杂的HTML结构中提取目标数据。动态网页爬取：正在学习 Playwright，能够处理需要JavaScript渲染的页面，掌握元素等待、点击、滚动等浏览器自动化操作。数据提取：掌握基础的正则表达式，能够从文本中提取数字、日期、价格等特定模式的信息。

2025-09-01 - 郑州西亚斯人工智能本科
学习了python，高等数学，操作系统，成绩一般，排名位置中 HTTP请求：使用 requests 库发送GET/POST请求，添加请求头伪装浏览器，处理超时和重试。 HTTP请求：使用 requests 库发送GET/POST请求，添加请求头伪装浏览器，处理超时和重试。

中文母语水平

英语借工具书面交流

Python熟悉

作品

静态网页网络爬虫

一、数据采集从公开网页中自动化获取信息，替代人工复制粘贴。支持单页采集、多页遍历、按关键词筛选。可采集文本、表格、链接、图片地址等内容。二、数据解析从杂乱的HTML中精准提取目标字段。支持按标签名、class属性、CSS选择器定位元素，能够处理分页、列表、详情页等常见结构。三、数据清洗对采集到的原始

2026-05-23 16:31

网络爬虫项目

核心能力概述：熟练掌握Python数据采集技术栈，能够独立完成从网页请求、数据解析到清洗存储的完整数据采集流程。擅长处理静态网页、公开API接口等合规数据源，交付Excel/CSV/JSON等多种格式的结构化数据。功能模块清单：模块名称功能说明技术要点网页爬取模块自动化获取目标页面内容request

2026-05-22 17:11

下载次数：0

￥100

更新于: 05-23 浏览: 30

个人介绍

工作经历

教育经历

语言

技能

相似推荐换一批

重点城市程序员兼职推荐

重点岗位程序员兼职推荐