ETL工具框架

:该系统是将业务数据库所有数据集中到hadoo大数据平台,进行分层、建模,通过不同维度的指标,全面分析总体运营情况,并依据市场变化做出正确对策,同时对产品进行改进和优化等。 项目架构:Sqoop + hadoop + Hive +impala+ crontab+kylingence+tableau+fineBI 技术要点: 1.通过shell开发出批量生产能自动适配 mysql、oracle、sqlserve等关系型数据库sqoop采集指令和impala建表语句的功能; 2.对Sqoop采集功能配置文件研究,使采集,解决MySQL和Hive的空值、null,转义字符,及数据类型不一致等问题。 3.使用impala,parquet格式进行压缩和列式存储,提供快速sql查询和开发 4.利用kylingence工具对sql进行建模,能加速页面的响应,让可视化工具更快展示。 5.数据仓库的搭建: (1)ODS原始数据层:将业务库数据增量或全量采集到ODS层,保证业务库和ods表1:1完全一致 (2)DWD明细数据层:对ODS层数据进行数据清洗和脱敏(有需要可创建非脱敏层)。进行维度建模,选择最
370shellETL工具框架
数据库管理系统(DBMS)包括以下主要功能: 数据库创建与定义:允许用户创建新数据库、定义数据结构(例如表、视图和索引),并指定数据的完整性约束和安全权限。 数据库查询与处理:提供对数据库中存储的数据进行查询、插入、更新和删除的功能。用户可以使用结构化查询语言(SQL)或者其他查询语言来执行操作。 数据安全性管理:对数据库中的数据进行安全管理,包括权限控制、数据加密、身份验证、访问审计等功能。 数据完整性管理:确保数据库中的数据符合预先定义的规则和约束,例如唯一性约束,外键约束等。 数据备份与恢复:提供数据备份和恢复功能,以保证数据库数据的完整性和可靠性。 数据性能优化:通过查询优化、索引、视图、存储过程等功能,提高数据库的性能和响应速度。 数据库复制与同步:允许数据在不同的数据库之间进行复制和同步,以满足数据共享和多地部署的需求。 数据库扩展与分布式处理:支持数据库的水平和垂直扩展,从而满足大规模数据处理和分布式计算的需求。 数据库监控和管理:提供数据库操作系统,用于监控数据库的运行状态、资源利用率和故障排查等功能。 数据库连接与应用集成:允许应用程序通过应用程序
90C/C++测试工具
数据源source 对接 多源,多格式元数据适配 数据通道 数据转化 数据校验 数据sink 对接 sink 对接 数据安全校验,幂等
80javaJava开发工具
编写shell脚本,编写数据库存储 进行需求接口分析,完成数据的架构设计工作和ETL开发工作; 负责数据代码开发和shell脚本编写,测试; 负责系统上线,数据迁移,进行相应的测试,保证系统的稳定运行
240shellETL工具框架
1.政企合作的数据开发项目 2.主要针对山东省各医院线上问诊的数据进行统计分析 2.我负责数据的清洗,etl,数仓搭建,数据各项指标分析,可视化报表的制作
30java可视化
1.系统分为SQL血缘解析,后端接口,前端展示 2.我负责SQL血缘解析开发,以及架构设计 3.项目难点:SQL为整个数仓的sql,包含了1000多个表直接的字段关系,解析会变得特别难。
280java存储系统
1.项目用于部门内部数据的处理,提供运营报表、财务报表,从原来一个数据报表需要开发5个工作日,缩短为1到3个工作日。 2.我负责:使用elk生态技术,为各业务线的研发同事提供日志数据,为各业务线的相关同事提供营收数据。 3.elasticsearch在当时是比较新的技术,学习成本高。
311java金融/财务/证券系统
1.基于BI的可视化数据平台,主要是报表sql编写 2.数据迁移,数据抽取,数据清洗,sql编写,数据精细化处理方案 3.mysql, 数据抽取工具
310javaETL工具框架
【背景】 公司现有的系统有很多,需要打通数据孤岛 【模块】 系统模块有:HCM,WTS,EDI,SAP,C3,ABI模块 【职责】 1. 跟业务部门人员沟通需求 2. 搭建系统架构,目前我使用的是SSM架构
200javaETL工具框架
数据中台的本质就是“数据仓库+数据服务中间件”,面对的是底层的数据库和上层的不同系统。 中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
330javaETL工具框架
待办事项、抄送传阅、办理历史、发起申请、申请历史、我的草稿 组织管理:组织管理、用户管理、角色管理 流程管理: 表单表单设计、流程设计、流程实例管理、任务管理 系统管理:字典分类管理、异常日志、系统资源、系统属性、常用脚本、短信邮件通知
440java性能优化
集成平台系统将不同类型、不同来源的数据通过统一的webservice接口 , 根据服务编码进行不同的业务逻辑处理 , 通过视图 , 存储过程 , MQ的方式实现数据消息的发送和接收 主要应用springmvc,springboot框架,RocketMQ消息中间件,数据库Oracle,MySql以及Redis, MongDB等NoSQL数据库 熟悉Linux平台操作
230javajava
主要是针对云南移动经分软件优化及数据中台基础数据支撑优化,根据客户方提出需求,进行需求分析,口径确认等进行模型建设开发,包括报表的开发及优化,新增标签及优化等进一步开发或者优化程序,编写上线文档,其中主要用到国产 gabse 数据库以及 hive 进行开发,tcl 脚本优化
190mysql数据库管理工具
1、负责用户权益系统的大数据数据库设计、开发、维护,为系统提供数据支持 2、负责从各种渠道收集用户数据并将这些数据进行清洗、整合 数据可视化与报表生成:将数据分析结果通过数据可视化工具进行展示,生成各类报表和图表
230java其他开发相关
将数据从一体化系统抽取到doris数据库,然后在抽取过程中对数据进行简单的清洗、转化,最后将数据完整入到ods层。 etl流程控制、数据校验、数据指标、根据业务需求给出相应的解决办法,从而到最后的数据可视化
430pythonETL工具框架
1.项目为工具类应用,主要是将文本(csv)数据预先进行清洗(去重、异常数据处理),再将数据插入到数据库中,在插入过程中也包括了一些异常情况的处理,增加工具的容错率。该程序使用了手写的cache组件,性能与内存占用优于原生Map组件并且数据处理速度可达500万/秒以上(基于20亿数据集的测试)。 2.该项目独立负责开发与维护,项目中运用了大文件高效的去重、文件并发处理等技术,核心逻辑无第三方框架,纯手工编写
200多线程数据处理
一、项目描述:共享交换项目主要有:服务代理、数据共享、数据交换、传输策略、数据同步、数据同步等模块 ,项目分为5个包,使用jenkins的方式打包,服务代理主要功能是将用户提供的接口转发的放式转成我们的接口对外提供,目前支持2种接口方式,分别为webservice和http接口,还可以实现跨网系代理,这里跨网系代理需要通过配置传输策略来完成,传输策略是通过配置对应的光闸或者网闸的ftp等策略来实现跨网,数据共享是通过查询数据库的方式将数据生成对应的接口展示出去,目前是可以支持get、post、put、delete这4种接口展示,支持配置的数据源分为sbase、hbase、es、PostGrepSql、greenplum、mysql、oracle、达梦这几种这几种数据源生成接口,数据交换是将数据实体、文件、文本数据通过不同的方式交换到不同的数据实体、文件、文本中,比如我可以将PostGrepSql数据库的数据交换到greenplum数据库中,也可以将ftp上的文件存放到数据库中,实现了数据交换,该模块也可以实现跨往系服务代理,也是通过传输策略来的 二、研发环境及所用技术:Eclipse
260多线程数据库连接池
本项目是基于SuperMap GIS基础软件,融合云计算、物联网、大数据GIS等前沿技术,构建了佳木斯城市管理“一张图”平台(以下简称“平台”)。该平台致力于解决佳木斯城市全域各类时空信息资源的高效汇聚、快速交换、安全共享等问题。
230javaspringboot
项目分为三个模块: 1.爬虫模块:利用selenium webdriver来模拟人工访问浏览器实现自动获取网页信息 2. 数据清洗模块:利用Spark来进行数据清洗 3. 可视化模块:用Vue+springBoot框架来进行搭建,运用了Echarts组件来实现可视化图表
70javaETL工具框架
API接口数据和线下表格数据实现结构配置化接口上传. 1、实现批量数据上传 2、实现接口与目标数据源的自动化匹配生成API接口 3、实现读取指定行数上传
1080pythonPython开发工具
当前共29个项目
×
寻找源码
源码描述
联系方式
提交