1、【70%】本人在数据采集模块负责研发工作,实现从消息队列获取采集任务,进而分析出数据库读取和文件解析采集任务,从而实现增量和全量接入方式,困难点集中在不同文件结构采集解析方式存在差异,需要考虑大数据量集群形式,考虑负载均衡。
2、【50%】本人在实时计算模块负责研发工作,实现从kafka消费采集到数据,进行实时计算,包括:打标、关联、提取、格式规整等计算规则。使用storm框架针对每天数十亿数据实时计算。困难点集中在接收数据和计算速度的均衡,避免内存溢出。
3、【20%】本人在资源目录模块负责数据库设计和研发工作,实现采集任务同步,采集计算资源信息同步规整到资源目录,以便后续人员使用。