技术架构: Nginx-1.12.2+Flume-1.7.0+Kafka-0.11.0+Spark2.1.1
+Mysql-5.7.16+ZooKeeper-3.5.7+Hadoop-2.7.2
项目背景:公司的各种 app 总安装量过亿,但是运营很长时间,用户的行为数据的积累几乎为 0,最后呈现的数据
就几张莫名奇妙的报表。对于一个互联网公司,对所有的数据有绝对的控制权,才是最合适的。针对于这种前提
下, 决定创建一个私有化部署的产品,可以部署在客户的内网,技术选型上选择热门的开源技术,同时在数据处
理从采集、传输、查询的各个环节提供普适易用的接口,降低客户的开发代价。
项目架构设计:
1 全端数据采集
因为一个用户在同一个产品上的行为,需要在多个来源进行采集,这些来源包括 IOS、安卓、Web、
H5、微信、业务数据库、客服系统等。不仅仅需要采集到,还需要能够将同一个用户在不同来源的数
据进行打通。
针对这样的场景,决定采用全端的数据采集方案,需要包括主流的客户端平台和 Restful 风格的数据导
入 API,全埋点与可视化埋点等埋点辅助手段。最后还需要提供 ID-Mappin