编写爬虫程序,想出反反爬策略,数据清洗,分表存储,维护代理ip池项目简介:
普工职位信息公司名称,地址电话号码,招聘要求,招聘人数,已报名人数等技术手段:
1requests发送请求,获取响应
2.购买代理ip,实现代理ip池,定期检测ip的可用性,维护代理ip池的质量
3、通过正则,xpath等捍取网页幸要的内容
4、保存为字典,通过PyMongo操作数据库,保存数据并存CSV
5.使用logging模块编写监控程序进行爬虫监控,并根据日期定向输出日志到log文件
点击空白处退出提示
评论