添加了反爬机制的爬虫（以维基百科为例）

技术信息

语言技术
Python系统类型
Web行业分类
企业服务

作品详情

行业场景

公开信息采集：从维基百科等公开平台抓取词条、百科类文本信息
数据预处理：为后续数据分析、文本挖掘、知识库构建提供原始数据
网页结构化解析：从复杂 HTML 页面中精准提取目标正文内容
反爬策略实践：模拟浏览器访问，应对基础网站反爬机制

功能介绍

1. 随机请求头伪装功能
内置多个浏览器 UA 标识，随机切换，模拟真实用户访问
设置 Referer 来源页，降低被网站拦截的概率
2. 网页请求与异常处理功能
向目标维基百科页面发送 HTTP 请求
自动检测请求状态，异常时抛出错误
加入 1~3 秒随机延时，避免频繁访问触发反爬
3. 网页解析与内容提取功能
使用 XPath 语法精准定位页面正文区域
提取目标节点下的所有文本内容
自动拼接、去空格、格式化输出干净文本
4. 数据输出功能
将抓取到的正文内容直接打印输出
可扩展保存为 TXT/Excel 文件

项目实现

1. 依赖库导入
导入requests：发送 HTTP 网络请求
导入lxml.etree：解析 HTML 页面
导入time/random：实现随机延时与 UA 随机选择
2. 目标地址与反爬配置
定义来源页 URL和目标维基百科 URL
构建浏览器 UA 池，随机选取请求头
设置 Referer 伪装来源，提升请求成功率
3. 发送网络请求
向目标页面发起 GET 请求
随机休眠 1~3 秒，模拟人工访问
状态码校验，确保请求成功
4. HTML 页面解析（核心）
获取网页源代码
使用etree.HTML构建 DOM 树
通过XPath 路径精准定位正文内容节点
5. 数据清洗与输出
提取所有文本并拼接成完整字符串
去除多余空格与换行
控制台输出干净的正文内容