1.编程语言:python3;2.框架:scrapy;3.需求:爬取当当网选定类型下所有商品的信息,包括书名、作者、封面图片,爬取的数据进行持久化存储;4.实现方案:采用scrapy框架创建项目,利用框架自带的xpath方法抓取需要的Html标签,在pipelines文件中设置2中管道,1个负责将书名、作者信息保存为json数据,另一个负责将获得的封面图片二进制数据保存到本地。
评论