1、立项原因:在IPTV上随着上线的媒资越来越多,展示排版工作量巨大,而且人工无法及时的响应热点内容和把握人群喜好,抓住流量。所以需要这样一个平台来自动编排,统计数据,给用户尽可能展示他们感兴趣的内容。
2、行业场景:在不同的页面,根据用户不同的观影偏好,给出相应推荐。
点击空白处退出提示
1、立项原因:在IPTV上随着上线的媒资越来越多,展示排版工作量巨大,而且人工无法及时的响应热点内容和把握人群喜好,抓住流量。所以需要这样一个平台来自动编排,统计数据,给用户尽可能展示他们感兴趣的内容。
2、行业场景:在不同的页面,根据用户不同的观影偏好,给出相应推荐。
1、项目包含模块:大数据计算模块,爬虫标准化模块,API模块,管理系统模块
2、项目功能:
(1)大数据计算模块:根据用户的观影数据,及该影视作品的标签,计算出用户的喜好,并打上标签。
根据不同媒资的标签,计算出相似内容用于相似推荐。
(2)爬虫标准化模块:根据局方提供的媒资基础信息,去爬取网络,完善其各项标签。并为不同供应商的相同媒资做出关联,避免重复媒资推荐。
(3)API模块:根据后台计算出的数据,为机顶盒提供实时高并发的查询接口
(4)系统管理模块:除了基础的人员菜单权限管理以外,还提供各个栏目位的推荐配置,以及查询各种报表
1、我负责其中的API模块,管理系统模块的,及部分爬虫标准化模块的开发,测试,部署和运维。
2、API模块和管理系统模块,使用了,Springboot+Spring+springMVC+redis+mybatis+Phoenix+Hbase的架构。使用Docker+k8s的方式部署。
难点一、控制好缓存机制,以应付高并发的请求。难点二、控制好管理系统的配置和API的联动。难点三、k8s集群机器不能联网,通过上网代理上网及安装以及后续的镜像下载
3、爬虫标准化模块:Python3 + Scrapy + Scrapy-Redis + MySQL + Kafka + Redis + Selenium/Playwright
难点在于,根据不同网站的反扒机制,做出不同的机制,并随时更新。





评论