大平台重点采集系统

我要开发同款
worker_ai2023年07月18日
74阅读
所属分类爬虫大数据

作品详情

该系统是用于采集客户重点关注的用户在微博,头条,微信公众号,抖音,快手,脸书,推特等平台的发文内容,保证客户能够及时且全面的拿到自己重点关注的用户的发文内容,并对其行为和立场进行用户分析,用户画像,制作用户行为分析报告给客户。项目主要包括用户模块,调度模块,采集模块,解析模块。技术框架:Springboot+zookeeper+kafka+redis+elastic-job+mongodb+flink+hadoop我主要负责:1.负责所有平台的重点用户账号准时调度,保证kafka队列中的任务至少一次消费。2.负责flink on yarn集群的搭建,用flink实时计算各个平台的热门话题和活跃用户。3.使用令牌桶算法实现对资源账号的限流。4.采用elk分布式日志收集框架来处理海量日志。5.参与整个项目技术框架的选型和接口的设计。
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论