zz91是一款专业的再生资源综合服务平台,主要内容:再生资源的咨询发布,为客户定制企业主页,提供客户最全面的再生资源信息,物流的调配的等。负责部分模块的设计与后台开发以及日常维护,包括web端与app端。网站网址 www.zz91.com
主要使用python+Django+mysql/redis 构建。
主要负责:
一、网站
1、用户模块,包括用户登录、注册以及会员管理模块等。
2、行情报价模块,业务逻辑以及数据库数据交互。
3、简单数据分析后,在前台页面展示结果。
二、爬虫
1、跟据需要把取的数探进行需求分析,分析目标网站的网站结构和一些反爬手段
2、通过requests,scrapy,scrapy-redis,xpath等技术手段编写犯虫程序进行内容抓取
3、采用asyncio+aiohttp以达成高并发,异步请求。通过继承aiohttp.ClientSession类来保存cookie对象,以应对基于cookie的反扒策略
4、通过timeout设置超时重发机制,考虑网站能否打开和打开时间问题,一般能要加异常判断。超时,retry等成少报措。
5、对抓取到的数探进行清洗去重,分表