1.参与总体数据仓库设计。
2.使用Python/自研调度工具将最底层不同系统不同类型的数据源(接口,Excel,Json,Mysql,Oracle)统一抽取到操作数据存储层。
3.使用自研调度工具对总线层数据进行转换、清洗,生成干净的数据流。
4.定期对项目整体代码review,对Python代码和SQL和储过程进行优化。
5.由于项目前期甲方提供数据不足,我负责使用Python的Pandas、Numpy、Nyhive、Flask生成模拟数据,并将数据保存到Hive、Excel中,并将数据通过接口和视图、表的方式暴露出来,以保证有数据,项目可以正常推动。
6.将明细数据仓库层进行聚合,形成业务领域的明细数据集,最后使用调度工具将数据入到Mysql中。
点击空白处退出提示












评论