公开信息采集:从维基百科等公开平台抓取词条、百科类文本信息
数据预处理:为后续数据分析、文本挖掘、知识库构建提供原始数据
网页结构化解析:从复杂 HTML 页面中精准提取目标正文内容
反爬策略实践:模拟浏览器访问,应对基础网站反爬机制
点击空白处退出提示
公开信息采集:从维基百科等公开平台抓取词条、百科类文本信息
数据预处理:为后续数据分析、文本挖掘、知识库构建提供原始数据
网页结构化解析:从复杂 HTML 页面中精准提取目标正文内容
反爬策略实践:模拟浏览器访问,应对基础网站反爬机制
1. 随机请求头伪装功能
内置多个浏览器 UA 标识,随机切换,模拟真实用户访问
设置 Referer 来源页,降低被网站拦截的概率
2. 网页请求与异常处理功能
向目标维基百科页面发送 HTTP 请求
自动检测请求状态,异常时抛出错误
加入 1~3 秒随机延时,避免频繁访问触发反爬
3. 网页解析与内容提取功能
使用 XPath 语法精准定位页面正文区域
提取目标节点下的所有文本内容
自动拼接、去空格、格式化输出干净文本
4. 数据输出功能
将抓取到的正文内容直接打印输出
可扩展保存为 TXT/Excel 文件
1. 依赖库导入
导入requests:发送 HTTP 网络请求
导入lxml.etree:解析 HTML 页面
导入time/random:实现随机延时与 UA 随机选择
2. 目标地址与反爬配置
定义来源页 URL和目标维基百科 URL
构建浏览器 UA 池,随机选取请求头
设置 Referer 伪装来源,提升请求成功率
3. 发送网络请求
向目标页面发起 GET 请求
随机休眠 1~3 秒,模拟人工访问
状态码校验,确保请求成功
4. HTML 页面解析(核心)
获取网页源代码
使用etree.HTML构建 DOM 树
通过XPath 路径精准定位正文内容节点
5. 数据清洗与输出
提取所有文本并拼接成完整字符串
去除多余空格与换行
控制台输出干净的正文内容




评论