一款直播爬虫通用框架,大致分成四大模块,在线模块、平台模块、爬虫模块、数据模块。
通过各个平台间的相互配合,实现对当前主流直播平台的数据抓取(斗鱼、虎牙、yy、企鹅、b站、快手等)。
责任描述:
1、对主框架进行搭建,实现数据间通信。并对各个模块进行基础代码、公共代码进行构造。
2、在线模块主要分成两大部分组成,官网在线直播主播,对已存在白名单进行监控。将在线主播数据发送至平台模块。
3、平台模块主要实现对在线主播统计与分派,将各个主播分配到不同爬虫模块,并监控每个直播间统计直播间状态。
4、爬虫模块,主要为接受平台模块分配到的直播信息,并对该主播进行爬取,将websocket连接,对主播直播间进行监控,并将接收到数据放置于redis中,并将直播间状态发生至平台模块。
5、数据模块,定时将redis数据推送中kafka中,发送至kafka中,供后续数据统计。
点击空白处退出提示
评论