该项目的特点是,爬取网站单一但数据量要求大,甲方要求我爬取一个主题下全部历史的微博评论数据,因此和多社交媒体标准数据量爬虫不同,这个项目的主要精力放在了高效率爬虫方面,主要解决的问题有:
控制访问频率,
使用ip代理池应对反爬虫措施
解决的难点问题包括:
requests模拟登录
分布式爬虫提高效率
点击空白处退出提示
演示地址
https://github.com/bunengzhucefeng/weibo_crawler
该项目的特点是,爬取网站单一但数据量要求大,甲方要求我爬取一个主题下全部历史的微博评论数据,因此和多社交媒体标准数据量爬虫不同,这个项目的主要精力放在了高效率爬虫方面,主要解决的问题有:
控制访问频率,
使用ip代理池应对反爬虫措施
解决的难点问题包括:
requests模拟登录
分布式爬虫提高效率
评论