项目要求:
1、抖音数据的爬取(https://www.douyin.com/user/MS4wLjABAAAA6QIRfJADgoyzikxITn4r6GsUVINB-EiR4UOY_ju1AU2W5Fq4YAkj-2n33_fK_gca?vid=7154044222864215331)
2、数据: 人名, 粉丝数, 所有视频的名字, 所有视频的点赞数, 所有视频的链接地址
3、将视频名字, 点赞数, 链接地址保存到excel中, excel文件名: 人名_粉丝数
项目实现:
1、使用selenium自动打开该网址,需要首先通过验证码中间页,此处借助超级鹰网站提供的API接口识别图片验证中的文字位置,创建selenium的动作链依次点击文字的位置并确认,这样可以通过验证
2、使用selenium模块提供的控制页面滚动的方法滚动到页面底部,此处需要等待数据的刷新,然后使用xpath语法抓取对应的数据
3、利用openpyxl模块创建工作簿和工作表,将数据写入,最后保存为.xlsx文件
项目实现的关键
1、首先要通过前面的验证码中间页
2、需要能够滚动到页面底部,等待全部数据刷新出来,然