1.scarpy,mysql,redis2.线程池,多进程3.通过爬虫爬取网页数据下载链接,存入数据库4.挑选种子URL;5.讲这些URL放入带抓取的URL列队;6.取出带抓取的URL,下载并存储进已下载网页库中。此外,讲这些URL放入带抓取URL列队,进入下一循环。7.分析已抓取列队中的URL,并且将URL放入带抓取URL列队,从而进去下一循环。
评论