HDFS

大数据平台产品系统
大数据平台是一站式大数据开发管理平台,基于 Hadoop、Spark 等大数据计算引擎,提供数据开发、任务调度、数据资产管理和数据质量管理等全方位的大数据产品服务。涉及 dataworker 平台、datax 数据同步服务、dzlog 日志数据采集服务、小海螺服务、jobserver服务、thrift-server 服务、jupyter 服务等。 技术栈:springboot、nginx、spring-security、jwt、hive、hbase、elasticsearch、clickhouse、kafka、mysql、redis、jupyter、livy、ai应用开发
590Java大数据
项⽬简单描述:通过前端埋点收集⽤⼾⾏为数据数据,业务数据采集采⽤同步策略存储在Mysql,⽤户⾏为数据采集使⽤flume通道,设置ELT拦截器获取⽇志时间戳,通过kafka消息队列暂存⽇志⽂件,业务数据通过Maxwell暂存kafka,所有数据经过⼀系列操作最终流⼊Mysql,通过数据接⼝可以⽣成可视化报表 技术栈:Hadoop,Zookeeper,Kafka,Flume,Spark,Hive等 项⽬总结:本项⽬主要采集电⼦商务平台的⽤⼾⾏为数据和业务数据,业务数据通过调研最晚可到达200天,每次可抽取 处理200天的数据,通过⼤数据组件分析⽤⼾⾏为,利⽤分析结果达到推测⽤⼾喜好,推荐类似商品的效果
810Python大数据
大数据项目产品系统
1. 车企车辆数据处理 2. 车辆行程划分,电子围栏 3. 驾驶行为模型开发 4. 车辆实时,离线数据开发1. 熟练掌握Java、Scala 熟悉Linux 、Shell、Python 。 2. 熟悉MaxComputer、Hologres、clickhouse 、Presto、HBASE、Hive、Flink 、Spark、Kafka、Datahub等大数据处理技术,熟悉性能优化和问题排查等。 3. 熟悉数据仓库开发,数据建模、大数据环境搭建、大数据架构设计 。 4. 对数据采集、数据建模、数据开发、数据治理、数据应用等大数据领域有实战经验善于解决问题和分析问题,攻关系统研发中的重难点技术问题,并制定相关的技术解决方案。
1450Java数据查询
主要是使用oracle的存储过程去开发报表,针对业务侧的需求提供数据支撑,将数据对接到指定的可视化报表展示平台,完成地区数据的分析。主要使用传统数据库oracle去完成数据分析工作,数据的采集,清洗和加工,和数据的建模,和数据的治理,敏感数据的脱敏,做到生产库没有用户敏感数据,完成不同业务域的数据分析工作。主要是使用oracle的存储过程去开发报表,针对业务侧的需求提供数据支撑,将数据对接到指定的可视化报表展示平台,完成地区数据的分析。主要使用传统数据库oracle去完成数据分析工作,数据的采集,清洗和加工,和数据的建模,和数据的治理,敏感数据的脱敏,做到生产库没有用户敏感数据,完成不同业务域的数据分析工作。
710hdfs其他(Others)
1 、本项目旨在设计一套数据质量报告开发方案 ,通过构建数据质量评估体系 ,实现对数据质量的全面监控和报告 ,以帮助企业识 别数据问题 ,优化数据管理 ,提升数据价值 , 因此需要一套数据监控管理平台统一归档各系统来源数据 ,进行数据标准化监管 ,并 对外分发合格数据。 2 、项目使用hadoop 、hive 、spark 、datax 、dolphinscheduler 、S3 建设 3 、根据用户制定的质量规则 ,进行数仓开发 ,满足用户需求
770java大数据
电商数据仓库产品系统
通过flume和sqoop数据采集工具,采集文件日志中的用户行为数据和数据库中的数据到hdfs 文件系统。然后到基于hdfs文件系统构 建外部分区表,建立总体的数据仓库框架。数据仓库 ods层直接保存原始数据,dwd层对数据进行一些预处理,dws层保存一些中间 层数据用于 app层数据调用。在数据仓库上完成相关指标统计,例如新增用户统计,用户流失统计,操作系统活跃性,商品指标信息 的相关指标。
1270java大数据
1、 协助完成《指标口径文档详情文档》的探查工作,存贷款部分包括协定存款、通知存款、一般定期、大额存款、结构性存款、协议存款、白名单存款、白领通、普惠贷款等等,探查范围包括业务种类,数据标准,业务口径等等,探查指标类型有衍生指标、新建指标、存量指标。 2、 独立完成存、贷款ODS取数逻辑(其中包括机构拆分),有对公定期存款、对公活期存款、个人定期存款、个人活期存款、对公结算存款、应解汇款及临时存款、开出汇票本票,对公账户贷款、个人账户贷款、信用卡贷款、贴现业务等等12个业务场景及表结构设计。 3、 协助前端指标配置及测试工作。
2320python金融
大数据分析平台整体以分布式存储为设计和分析的思想进行架构设计,为公司的业务系统提供大数据解决方案,提高业务系统的实时查询性能和网络吞吐量。主要以CDH6.1.0为hadoop大数据平台的技术底座,对hadoop组件体系的集群化管理,统一控制台运维管理hadoop组件的稳定性、伸缩性、容错性、高可用性等等,可以良好的兼容Spark Streaming2.4.0、flink1.6.0、storm1.2.0等流式计算框架,集成了hive sql、spark sql、java jar、spark、shell、python离线计算资源,集成了impala3.1.0查询引擎,以及与kudu1.8.0 等存储引擎的良好集成,引入了dolphinScheduler1.0.0工作流分布式调度系统,支持spark, hive, mr, python, sub_process, shell等等任务调度。上层应用以springCloud Edgware.RELEASE微服务架构为基础、结合mysql5.7 、redisGraph1.0.8图数据库、es6.4.0、rocketmq4.2.0 等中间件和数据库搭建应用服务平台,再以vue.js2.6.0 实现前端用户UI界面的高效渲染,完整的实现前后端分离的架构设计方案。主要包括规划、研发、资产、市场、系统管理五大模块。我主要负责整个系统的需求分析、架构设计、工作安排、开发运行环境的搭建以及后期应用的部署上线。
1480java大数据
主要从事银行业数据开发方向以及ETL方向,针对银行业务需求制定解决方案,主要以写SQL为主,以及shell脚本和工具使用等,还做过BI报表分析等 1.熟练掌握Oracle、MySQL、DB2、GBASE、HIVE、达梦等关系型数据库; 2.熟练掌握以上数据库各种常用函数的使用、存储过程、执行计划等,对 SQL 性能调优等; 3.熟练使用ETL处理工具,KETTLE、DATASTAGE等; 4.熟悉银行相关业务,存款、贷款、资金、理财、票据、债券、同业等; 5.掌握linux系统基本命令和编写 shell 脚本以及Python脚本; 6.熟悉Hadoop、hive、kafka、NCDS 等相关技术组件,熟悉 Hive SQL 应用开发; 7.熟练使用JAVA基础开发; 8.熟练掌握EXTJS前端开发; 9.熟练掌握帆软报表开发使用;
1680python金融
数据加工平台产品系统
随着数据越来越多,传统的服务后台和一般的数据库已经无法满足海量数据的存储、计算和快速检索查询,为了解决大量数据带来的数据处理效率低、查询数据慢的问题,使用hadoop生态组件,基于大数据分布式集群,实现数据的高效运转。
1170java大数据
连接多个渠道/电商平台的API,实时获取订单及其它重要数据。对接传统restfull API接口,也支持EDI、XML、SFTP、AS2等多种对接方式。
1380java网站API
CRM大数据营销系统是一套基于大数据计算与应用的系统,为了解决运营人员智能化营销、策略营销的需求,同时完成公司智能化平台运营的目标,系统在智能运营、用户画像、策略营销、数据分析等方面发挥持续不断的助力,为客户提供了更多的投资选项,发挥了更好地服务于客户的作用,系统采用idea为开发平台,git为版本控制工具,基于Spring boot、spring cloud(eureka、ribbon、hystrix、sleuth)框架的J2EE分布式微项目,采用mysql为数据库服务器,nginx+tomcat为应用服务器,并使用redis集群、hbase集群、mongodb集群、hdfs、kafka集群、zookeeper集群、hive、spark sql、spark streaming、log stash日志收集等技术,系统包括登录与退出系统、总览、标签体系、营销中心、数据中心、风控管理、账号管理、数据中心等模块。 项目职责 参与项目的需求分析与架构设计,具体工作内容包括:系统数据收集功能开发、系统业务指标分析功能开发、系统模块功能实现、系统底层工具类的编写、第三方接口对接、hbase表的设计、mongodb collection的设计工作等。
1500javacrm
技术栈:SparkSQL,Hive,Flinkx,ClickHouse,海豚调度,数仓维度建模,Kafka,PolarDB 数据化服务平台提供了各种业务数据的分析与展示,便捷地获取完整、准确、丰富的数据分析结果,支撑业务精准和快速决策。但由于1.0版本的数据存储与计算完全基于Mysql,导致数据计算过慢,历史数据无法获取,对于一些复杂指标的统计无法直接通过Mysql中现有数据直接计算得到。所以数据化服务平台中需要一种新的存储及计算方式。2.0版本使用数据仓库进行改造,并结合大数据能力进行存储与计算,彻底解决了1.0版本中存在的性能瓶颈与功能缺失。 我在项目中的职责: 1.设计数据化服务平台2.0整体功能架构; 2.数据仓库主题划分、各层模型设计与创建(ods,dwd,dws,ads); 3.Flinkx部分同步任务编写; 4.数据仓库核心数据加工任务开发; 5.海豚调度配置整体任务流程;
1450java大数据
技术栈:Flink,Flink CDC,Kafka,Redis,PolarDB 随着公司越来越多的业务场景对实时性要求越来越高,传统的Java程序已无法满足业务需求,需要采用Flink实时计算框架来对业务进行支撑。Flink大数据实时计算服务内部包含了多个Flink任务流,分别处理多个不同的业务流程。并且结合Flink cdc服务进行数据同步,使得业务处理更加高效、便捷。 我在该项目中的职责: 1.构建Flink实时计算项目框架,搭建整体服务架构,包括Flink项目工程样例创建,数据库工具类、Kafka工具类、Redis工具类、日期工具类等。 2.java程序改造Flink,某些新的功能需求使用Flink实现,具体的服务有: (1)电站潮流图秒级计算服务,实时接收设备上传的秒级测点数据,每10s一个窗口进行数据计算并推送结果给前端; (2)通信设备时区实时纠正服务,实时接收设备升级和时区设置成功指令数据,判断是否和电站时区一致,若不一致则下发时区指令进行通信设备时区纠正; (3)电站设备实时同步服务,实时接收Flink cdc服务推送的电站、设备相关表的变更数据,同步写入到ES索引中,供阳光云Web及App页面数据查询; (4)flink-sungrow-cdc服务,使用Flink cdc技术实时监听核心业务库(PolarDB)变更数据,并根据指定规则将不同表的数据发送到不同kafka队列中,供其他业务使用;
1850javaredis
使用hdfs创建网盘,使用frp将家中的tomcat映射到云服务器上,并使用nginx反向代理,负责全部任务,分为用户模块、网盘模块、资源模块,可以将自己网盘里的资源公开,未来可以增加收费功能。
1070javahadoop
1、该项目是数据仓库项目,分为财务、供应链、经销商等多个主题,数据经过处理后对外提供报表和接口服务 2、我负责数仓的整体架构&设计和数据处理。
750python大数据
一、项目简介 随着企业业务的不断扩展,数据量的快速增长使得数据的处理、存储和分析面临前所未有的挑战。为了更好地利用这些海量数据,企业数据入湖项目应运而生。本项目旨在构建一个高效、可靠、可扩展的数据入湖平台,通过Hudi数据湖技术以及其他大数据组件,实现数据的实时采集、清洗、转换和存储,为企业提供一站式的数据解决方案。 二、项目模块与功能 本项目主要划分为以下几个模块,每个模块都具有特定的功能,以满足企业的不同需求。 数据采集模块:该模块负责从各种数据源(如数据库、API、文件等)中实时或批量采集数据,并将其传输到数据湖中。数据采集模块支持多种数据格式和数据源类型,确保数据的全面性和完整性。 数据清洗模块:在数据进入数据湖之前,该模块负责对原始数据进行清洗和去重,消除数据中的噪声和错误,提高数据质量。数据清洗模块能够自动识别和修复缺失值、异常值、重复值等问题,确保数据的准确性和一致性。 数据转换模块:清洗后的数据需要转换为适合存储和分析的格式。该模块支持多种数据转换方式,如数据压缩、加密、格式转换等,以满足不同的存储和分析需求。同时,该模块还支持数据的实时转换,确保数据的实时性和准确性。 数据存储模块:利用Hudi数据湖技术,该模块负责将转换后的数据高效、可靠地存储到数据湖中。Hudi提供了增量更新、版本控制、快照查询等功能,使得数据的存储和查询更加高效和灵活。 数据服务模块:该模块提供了一系列数据服务,如数据查询、数据分析、数据挖掘等,以满足企业不同部门的需求。通过数据服务模块,用户可以方便地获取所需数据,进行数据挖掘和分析,为企业的业务发展提供有力支持。 对使用者来说,这些模块提供了以下功能: 实时或批量地采集多源数据,实现数据的全面整合。 自动化地清洗和去重数据,提高数据质量。 灵活地进行数据转换,满足不同的存储和分析需求。 高效、可靠地存储数据到Hudi数据湖中,支持增量更新和快照查询。 提供丰富的数据服务,方便用户进行数据查询、分析和挖掘。 三、我负责的任务与技术栈 在项目中,我主要负责数据转换模块的开发和维护工作。为了高效地完成这一任务,我使用了以下技术栈: 编程语言:Java,因其强大的面向对象编程能力和跨平台性,非常适合构建大数据处理系统。 数据处理框架:Apache Flink,用于构建实时数据流处理应用,支持高吞吐量和低延迟的数据处理。 数据转换工具:Apache NiFi,提供了一套丰富的数据转换组件和可视化的配置界面,方便我们快速构建数据转换流程。 通过运用这些技术栈,我成功地实现了数据的高效转换和实时处理,确保了数据的准确性和实时性。 四、项目成果 通过本项目的实施,我们成功地构建了一个高效、可靠、可扩展的数据入湖平台。该平台利用Hudi数据湖技术和其他大数据组件,实现了数据的实时采集、清洗、转换和存储,为企业提供了一站式的数据解决方案。同时,我们还为用户提供了丰富的数据服务,方便用户进行数据查询、分析和挖掘。这些成果不仅提高了企业的数据处理能力,还为企业的业务发展提供了有力的支持。
2580mavenHUDI
1.对水质,空气,尾气,走航车,等多种数据源的采集。 2.采集数据存储分析,aqi,空气质量预测,沙尘天预测。 3.数据资产管理,分析。
1890kafkaSocket
hadoop 系列 hdfs、hive、hbase 数据文件处理 用python编写 使用rocksdb、grpc、mysql 等相关技术 难点在于,hadoop数据量大,数据处理的准确性、效率
2110python数据备份
、数据采集:在datax的基础上进行二次开发,设计开发出能够适配我们数据治理 平台的数据采集并能够通过页面动态的配置来校验、过滤采集数据。 2、数据清洗:可配置化的校验规则、过滤规则 2、主数据管理:全动态的主数据生命周期管理、通过配置化界面实现主数据的属性规划、 属性过滤校验 3、审批配置管理:利用ant-design技术重新开发出更加简便的流程设计配置管理页面, 使之成为一个独立的模块发布部署,能够实现自定义审批流、审核、回退、作废、取消等 4、任务调度中心:系统的全部调度任务管理 5、ESB服务调度:利用mule设计开发出了公司的ESB调度功能,实现不同系统之间数据 交互能够支持REST、DB、SAP、WS协议下的数据转换
1450rocketmq大数据
当前共46个项目more
×
寻找源码
源码描述
联系方式
提交