使用scrapy框架进行数据抓取,使用ddddocr进行验证码的识别,使用crawl spider子类对商品的所有评论的抓取,使用IP代理解决被封IP的问题,使用随机ua突破ua反爬,使用crawlab管理爬虫程序
评论