1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆
2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系
3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据
4、通过pymysql模块将爬取的数据保存到mysql数据库
5、使用logging日志模块进行爬虫监控,并根据日期输出到不同的log文件
点击空白处退出提示
演示地址
http://www.github.com/654060747
1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆
2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系
3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据
4、通过pymysql模块将爬取的数据保存到mysql数据库
5、使用logging日志模块进行爬虫监控,并根据日期输出到不同的log文件
评论