采集用户上网的操作日志信息,包括登录时间、用户编号、IP地址、登录区域等信息,使用爬虫的技术,爬取网易的访问日志数据,统计网页的浏览量,访问的用户数,访问的IP数量,跳出用户数等业务指标。
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖、评论等信息
本项目涵盖Linux、HDFS、MySQL、Sqoop、HBase、Hive、kettle、Python等语言和工具
点击空白处退出提示
采集用户上网的操作日志信息,包括登录时间、用户编号、IP地址、登录区域等信息,使用爬虫的技术,爬取网易的访问日志数据,统计网页的浏览量,访问的用户数,访问的IP数量,跳出用户数等业务指标。
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖、评论等信息
本项目涵盖Linux、HDFS、MySQL、Sqoop、HBase、Hive、kettle、Python等语言和工具


评论