背景和目标:客户有上亿的用户,需要通过网络报文数据深入了解他们用户的使用情况,统计分析之后提供更好的服务,为客户开源节流
点击空白处退出提示
背景和目标:客户有上亿的用户,需要通过网络报文数据深入了解他们用户的使用情况,统计分析之后提供更好的服务,为客户开源节流
软件功能:嵌入式软件实现数据采集和初步清洗过滤功能;云平台负责与嵌入式软件通信实现控制和数据采集与存储;大数据分析系统负责对存储数据进行多维度分析,提供数据统计、报表和用户画像功能,并按照客户的业务需要筛选出有价值的客户
业务流程:控制通道,云平台根据客户需要定制过滤规则并下发到指定的嵌入式软件,嵌入式软件根据过滤规则进行采集数据的过滤;数据通道 ,嵌入式软件采集到云平台接收和存储再到大数据系统分析,最后输出客户业务结果
规模:嵌入式软件每日活跃超过1亿,云平台采集数据的带宽超过2Gbps,大数据系统的ods层数据每日超过100亿条
个人负责:整体架构设计,各个模块的核心设计和开发,嵌入式软件占用存储约300KB、内存约20MB,通过lua脚本支持功能的热加载;云平台实现上百万端侧规则的下发;
大数据分析难点:刚开始使用java+scala进行Hive表的演算,但发现开发效率过低,后续通过自研实现基于python的SQL调度系统极大提升开发效率,并通过日志模块实现可观测与可调试




评论