1、分析网页数据,考虑到数据量较多,采用scrapy-redis搭建分布式爬取数据,此框架搭建分布式比较方便且爬取更快,而且也实现了数据去重、增量处理
2、初次使用静态cookie进行数据爬取,后因静态cookie的时效性,采用了重写spider中的start_requests方法,并使用selenium、PhantomJS无界面模拟登录获取动态cookie信息
3、使用BeautifulSoup模块处理数据,用css选择器对数据进行抽取,解析
4、构建User-Agent池,开启Middleware中间件使用UA伪装浏览器
5、考虑到单个用户爬取频率过高,采用注册多个用户同时进行爬取
点击空白处退出提示
评论