数据仓库搭建

我要开发同款
一只虫子2022年05月09日
93阅读

作品详情

工作描述: (一)中地集团(付融宝):参与数据仓库开发,数据引入,清洗,按照需求对数据维度切分,依据临时统计的业务报表使用情况,设计合理的中间层,宝贝金融数据报表开发及固化,相关需求整理, 业务场景专题分析,为产品推广,用户行为刺激/引导 公司相关活动提供数据依据。主要工作:1、对部门所有掌握的数据资源进行认知,按照紧急程度做优先级排序,为了保证各部门获取数据的及时性,将优先级高的需求数据接入到 ods层,在 dw 层做清洗以及数据生命周期的控制。各个业务部门需求临时报表的需求和临时统计,根据底表的使用频率,设计出合理的中间层报表,在中间层的基础上固化成前台报表,提供各业务部门使用,这部分数据落在中间层。2、 业务场景专题分析,为产品推广,用户行为刺激/引导 公司相关活动提供相应的主题数据,这部分会用到 python 中的一些分类,预测算法。已经做好的有 :用户画像数据,运营成本分析数据,运营效果分析数据,渠道/引流效果分析数据,财务数据,数据血缘关系(二)中的集团(麦芽贷):麦芽贷数据资产项目实施。整理业务需求,数据分层 ODS-DWD-DWS-ADS ,报表开发, hadoop/hbase+hive+sqoop+azkaban 主要工作内容:1、flume+kafka+(j)storm+Hbase :解析用户手机定位信息,联系人信息,手机短信的解析,在通过了解的信息输入公司征信模型来判断个人的借贷情况。2、征信模型迭代调整:采用 python 的相关算法包,对公司购买的三方数据或是网站上爬取分析的数据在或者是政策法规调整,做指标强关联分析,从而对现有模型做评估调整。模型链由基本准入链+反欺诈链+分期提档链 三个主要规则链组成。第三方数据接入包括:a)芝麻分数据:时间段内接入用户芝麻分值,并归档。b)宜信平台信息c)同盾人员名单d)腾讯人员名单e)新颜数据 f)葫芦数据。3、数据资产报表开发:架构采用 hive+impala+sqoop+azkaban 。大数据资产系统按照业务线分为:运营类报表,预期类报表,催收报表,财务报表,信审报表。按照产品分为:普惠数据,好信用平台,安心花,鸭梨分期。按照主题分为:用户行为轨迹,用户画像,预警信息指标,app 埋点数据信息,用户引流数据。随着集团的子公司产品增多,最近接入了 米粒保险数据,智能投顾的股票 和股指数据等。数据仓库会朝着数据资产方法发展,重新对业务域进行分类工作内容和计划是按照地域/公共域/客户域/渠道/营销/财务 重新整合
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论