因公司自主研发的*APP“点多多”项目,需要增加商城功能,需要商品展示,按照公司的要求对京东商城的七类商品进行了采集,包括商品类别,商品ID,名称,价格,品牌,参数,折扣价,主图,详情图等相关信息进行了采集;并将数据保存在数据库,图片需上传到OSS上。 1.分析项目网页的结构,制定爬虫的方式; 2.根据项目需求用Scrapy搭建爬虫框架,根据项目需求制定爬取计划; 3.通过Scrapy.Request发送请求,并设置ip代理,用Xpath解析页面,使用正则进行特殊的页面解析,如:js渲染的价格数据和图片链接; 4.对数据进行采集,然后将采集下的数据进行分析处理,清洗;
5.将采集的数据存储到MySql数据库中; 6.将图片先下载到本地,然后在上传到阿里云的OSS储存器中; 7.对代码和数据进行维护和相关的处理。
点击空白处退出提示
评论