网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
本项目应用Python爬虫技术,爬取广东省水利厅网站中 粤水资讯 > 水利百科 > 水利工程的网页(http://slt.gd.gov.cn/slgc8735/index.html)中的标题、标题链接、内容等信息。
1.2流程描述
①利用浏览器开发者工具,熟悉网页结构,了解所要爬取内容的所在位置;
②根据了解内容,编写xpath表达式;
③根据所编写的xpath表达式编程实现对目标数据的爬取;
④将爬取到的数据做处理后保存到mysql数据库中。
1.3项目目标
①爬取水利工程页:‘标题’,‘标题链接’,‘标题中的文章内容’
②对数据进行必要处理并保存到数据库中。
点击空白处退出提示










评论