本人负责公司多个奢饰品官网,APP,新闻资讯类(人民网,新浪,腾讯新闻),电商类(当当,唯品会,京东等)的爬虫,包括前期和业务人员需求对接,项目进度排期,以及每个官网爬虫的网页结构分析,技术选用,代码开发,测试,上线,后期维护等。在此期间能够保质保量的完成爬取任务,保证了公司相应商品及时上架。用到的模块包括:request,scrapy,scrapy-redis,mysql,redis,pymysql,configparser,logging,xpath,bs4,正则表达式,selenium等。遇到的反扒策略有:IP限制,加密参数,JS逆向,登录验证码,浏览器常见属性的检测,APP端加壳逆向处理等。
点击空白处退出提示












评论