包含的模块:数据爬取和序列化模块,用于抓取网页上的公开数据,并序列化为json文件,使用Python的Scrapy框架开发;抓取失败报警模块,当由于网络或其它原因抓取失败时,向指定邮箱发送邮件,使用Python的smtp模块开发;定时执行模块,定时驱动程序执行,使用Python的apischedule第三方模块开发。解决的难点:网页公开数据的接口和解析方法的提取,通过抓包工具和浏览器检查工具。对爬取过程中各种异常的捕捉和相应的标记处理。
评论