项目描述:基于Nodejs和Chrome的无头浏览器,以工厂模式搭建针对于不同省份电子税务局网站的爬虫程序。将入库的指标经过解析,生成企业的年度税务报告。
工作内容:
1、对江苏、江西、河南三个省份,分别开发对应的抓取脚本,针对每个数据源根据省份的不同封装相应的抓取逻辑。
2、优化脚本的执行时间,控制在一个半小时内抓取三个年度的数据。
3、优化方式包络不限于:减少sleep的时间、减少重新导航,尽量多的复用page对象,网络不佳时重试机制等。
点击空白处退出提示
语言技术
JavaScript、Node.js、HTTPS、ES6
项目描述:基于Nodejs和Chrome的无头浏览器,以工厂模式搭建针对于不同省份电子税务局网站的爬虫程序。将入库的指标经过解析,生成企业的年度税务报告。
工作内容:
1、对江苏、江西、河南三个省份,分别开发对应的抓取脚本,针对每个数据源根据省份的不同封装相应的抓取逻辑。
2、优化脚本的执行时间,控制在一个半小时内抓取三个年度的数据。
3、优化方式包络不限于:减少sleep的时间、减少重新导航,尽量多的复用page对象,网络不佳时重试机制等。
评论