业务背景:针对目前汽车品牌众多,对于消费者在各汽车品牌选择的指标进行大数据分析,它由全新一代大数据生态技术+AI技术驱动,让海量数据聚合,产生价值裂变,让车企、媒体、研究院等用户可以实时从多渠道、海量信息中清晰了解消费者心声
工作职责:面向全网进行汽车数据抓取,其中主要针对汽车之家、今日头条、微信公众号、懂车帝等媒体进行数据抓取;通过调研网站结构及其反爬机制,对指定网站进行爬虫脚本开发,并针对反爬机制进行破解,如:js加密,signature参数加密,特定编码文件,IP访问限制等。针对不同情况使用不同破解方法。
遇到问题及解决方案:
汽车之家:针对该类网站,反爬机制主要有ip限制、请求头验证及字体编码,针对以上几种反爬机制,采取的解决方案为代理ip池,构建协议请求头池,根据该网站特定编码文件进行字体解码;
抖音:通过调研,在该类数据中反爬主要为请求协议中增加了加密验证参数,针对这一情况解决方案为通过fiddler抓包使用中间人攻击方式,获取接口中参数的生成方式,通过逆向编译app源文件进行加密方法提取,并通过python实现加密过程;
技术栈:selenium,scrapy,js,Linux, ES,mysql,redis
点击空白处退出提示
评论