该项目配合多重爬虫手段,爬取了微博、豆瓣、百度、天涯等主要社交媒体的数据,爬取的网站种类多,各个页面特征不一,主要解决的问题有:
分析各个平台的页面特征,制定针对化的爬虫策略
控制访问频率,
使用ip代理池
解决的难点问题包括:
模拟网站登录
分布式爬虫
模拟java script进行页面跳转
点击空白处退出提示
演示地址
https://github.com/bunengzhucefeng/media_data_crawl
该项目配合多重爬虫手段,爬取了微博、豆瓣、百度、天涯等主要社交媒体的数据,爬取的网站种类多,各个页面特征不一,主要解决的问题有:
分析各个平台的页面特征,制定针对化的爬虫策略
控制访问频率,
使用ip代理池
解决的难点问题包括:
模拟网站登录
分布式爬虫
模拟java script进行页面跳转
评论