分布式爬虫,每天处理上百万条数据,主机器主要是任务的建立,与下载队列的生成,
从机器从主机器获取下载任务,进行下载任务与网页处理,主从机器之间的交互用 thrift
框架,kafka 充当爬虫爬取的队列。利用 kafka storm 框架实现爬取数据与数据解析分离,
使爬虫更有效率,同时也更方便的维护爬虫。根据网站的特征对网站进行分析,制定网
站的更新策略。新闻是根据算法进行页面内容抽取,抽取正确率 90%以上,贴吧论坛根
据 搭 建 解 析 框 架 , 利 用 jsoup 与 xpath , 是 用 于 大 部 分 网 站 , 爬 虫 后 台 用 的 是
SpringMVC+mybatis 搭建,针对爬虫进行监控。方便操作员对爬虫的管理
点击空白处退出提示
评论