项目主要分为爬虫抓取,模型判断,数据清洗,业务系统4个部分,本人在其中主要负责数据清洗和推送数据到业务系统部分。数据清洗用了大数据平台hive,在hive清洗完成后经过网络传输送到深圳市监局,再由入库程序将数据插入到业务数据库中。业务数据库主要用到了clickhouse和mysql两种数据库。数据清洗、数据推送、数据入库这三部分程序都由本人一个人完成。数据清洗主要用到hive QL 和pyspark,数据推送和数据入库用Python完成。
点击空白处退出提示
项目主要分为爬虫抓取,模型判断,数据清洗,业务系统4个部分,本人在其中主要负责数据清洗和推送数据到业务系统部分。数据清洗用了大数据平台hive,在hive清洗完成后经过网络传输送到深圳市监局,再由入库程序将数据插入到业务数据库中。业务数据库主要用到了clickhouse和mysql两种数据库。数据清洗、数据推送、数据入库这三部分程序都由本人一个人完成。数据清洗主要用到hive QL 和pyspark,数据推送和数据入库用Python完成。
评论