使用Scrapy爬虫框架,对人民网、新华网、央广网、光明网等三十余个网站进行全站式爬虫,爬取新闻内容五百余万篇,对网页标签内容抽取有一定的经验。能爬取ajax请求的网页,能把scrapy和selenium结合使用。
评论