1、了解数据需求,分析网页发现部分数据使用js动态加载,并使用伪元素加入混淆2、根据js逆向策略,找出对应的js文件从最后一步找起,缺啥找啥,把需要的函数找到使用PyV8库对js作解析,最终找出数据的映射关系3、结合数据的映射,使用requests,正则,xpath提取网页需要的数据4、通过pymysql模块将爬取的数据保存到mysql数据库5、使用logging日志模块进行爬虫监控,并根据日期输出到不同的log文件
评论