负责数据的采集、清洗以及转存。具体流程如下:
◆ 数据采集:定时每天在银行数据中心服务器采集数据,主要编写 shell 脚本使用
lftp 对目标数据表文件进行遍历查找,查找到目标数据表文件之后对其进行解压
,拉取到服务器上进行备份存储。在 kettle(ETL)中配置自动定时运行 shell 脚
本。
◆ 数据清洗:采集过来的数据主要分为客户的信息、账户、借据、贷款担保、贷款 产
品信息、交易明细六个类型的相关表数据。然后把采集来的这些数据文件使用kettle
存在PostgreSQL 对应表中,以客户信息表作为总关联,对客户的交易、账户、
借据、担保依次进行清洗。
◆ 数据转存:把清洗完成的数据(清洗完成数据在 PostgreSQL中),转存到
Elasticsearch、MySQL、GaussDB 中。Es 中存全量数据,以便于 HugeGraph 建模
取数。MySQL 每天清一次数据,存储每天每天最新数据,程序算法每天监控风控
异常数据。GaussDB 为银行内部大数据库,存储最近一个月最新数据, 银行对
清洗数据进行异常、安全监控。
◼ 负责行方需求及业务开发:利用清洗完的数据基于图数据库建立两个数据模型,分别为客户
风控数据及家庭成员风控数据,对这两个数据模型进行账户交易风险监控,对 行方人员提
供风险审核入口,主要跳转图数据库,行方工作人员可根据可视化图数 据模型对该客
户或家庭进行是否为风险账户进行审核。
◼ 负责项目服务器部署及环境搭建。如 Elasticsearch、Redis、MySQL 集群搭建。及项目
前期运维工作,培训行方工作人员,编写《项目运维手册》、《系统操作手册》。
点击空白处退出提示












评论