主要工作内容有:
1、资信平台建立:
>结合业务, 找上游部门调研,值域、枚举值 的标准化等工作。
>各渠道的数据接口、找研发人员调研。明确接口含义及到 mongodb 的映射及层次关系。
2、数据融合及数据清洗工作:
>json 样例字典核对、风控规则的分类、渠道前置规则涉及的指标、报告类及原始类数据的分类处理等。
>数据分层,贴源层、mapping层、 到 标准层、按照资信平台的标准。
> 依据业务部门的风控,按照业务范围,整理好特征表。(例如信用卡数据,划分成卡片层、银行层、用户层等)
3、特征衍生工作。
>按照 不同场景、目标属性、计算方式、时间窗口 等业务要求需要 衍生 出变量。
>利用 python、spark、Sql 工具 ,实现生成特征。
> 筛选特征,入评分卡模型(基于逻辑回归的)。 区分变量的类型,选用合适的分箱方法,考量单调性,计算出 WOE、IV值。 在依据 随机森林等算法 选出强指标。
4、数据监控工作;
>按照业务要求对值域、枚举、异常值数据及分布采用告警或阻断操作。并推送通知。
5、第三方数据接