1、立项原因,旨在解决什么产品问题
解决政务系统中大数据建模分析效率低下的问题,通过将已经治理好的结构化大数据表元数据接入系统,在页面上可视化的对表构建DAG的方式数据一步一步进行过滤、开窗聚合、上钻、下探等,最后得到分析结果。
2、行业场景,业务背景
面向市大数据局、公安、市监局等政务部门开展项目,各部门已完成数据治理工作,但数据加工需开发人员手写代码实现,存在需求响应慢、业务人员无法自主操作、数据处理效率低等痛点,亟需搭建低门槛数据处理平台。
政务系统中存在大量治理好的大数据,比如疫情期间的每日核酸检测、宾馆住宿、摄像头记录的车辆过闸等数据,需要在指定的时间范围内去找到符合特征的数据来辅助进行社会治理、案件排查或者重点人员轨迹跟踪等。
项目目标
1. 采集政务数据元数据信息,实现库表、字段及业务含义统一管理
2. 搭建拖拽式可视化建模平台,通过算子实现数据自助加工,降低使用门槛
3. 新增定时任务调度功能,实现建模任务自动化执行
4. 对接BI报表模块,实现加工数据可视化展示
5. 提升数据处理与需求交付效率,支撑政务业务自助数据分析
项目概述
搭建政务低代码可视化数据建模平台,自动采集治理后数据的元数据信息,提供过滤、排重、聚合、拆分等拖拽式算子,实现业务人员自主数据加工。支持建模任务定时调度、结果数据异构系统同步与级联分析,同时打通BI报表模块,可自主生成柱状图、折线图、甘特图等图表,完成数据加工到可视化全流程自助化。
工作内容:
• 数据标准与元数据管理:负责接入客户治理后的大数据表,制定并推行数据接入标准。设计元数据管理模块,实现表级/字段级的权限控制与数据血缘追踪,确保各用户仅能访问授权数据,提升数据资产的可见性与安全性。
• 数据模型与算子优化:设计并实施可视化数据分析模型。针对不改变结果集大小的算子(如身份证解析),优化执行逻辑与资源调度,减少不必要的计算步骤,显著降低YARN资源使用率30%+。
• 数据服务与性能优化:主导OLAP引擎选型与优化,引入 Doris 和 Presto 替代传统 Hive,实现复杂查询的秒级响应。开发SQL语法自动转换工具,解决异构数据源(PrestoSQL vs Hive)的兼容性问题。
• 数据管道开发:基于 Flink/Spark 开发ETL管道,编写自定义UDF函数扩展SQL能力,支持异构平台(BI系统)的数据共享与接口调用。
工作业绩:
降本增效,重塑政务数据价值流:负责的政务数据中台面临查询慢、成本高难题。通过主导OLAP引擎升级与计算逻辑优化,在保障业务体验的同时,成功降低集群月度资源成本超过20%,并将复杂分析查询的响应速度从分钟级提升至秒级,直接赋能各级部门的数据决策效率。
产品化思维,提升技术输出效率:为将技术能力转化为业务生产力,打造“拖拉拽”式可视化建模平台。将业务部门的数据分析需求平均交付周期从3天压缩至2小时,解放了业务人员对技术团队的依赖,实现了从“提需求”到“自助分析”的范式转变。
技术栈:Hive+MaxCompute+GaussDB+Doris+Trnio+Spark+Flink (使用CDH 、华为云或阿里云)
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论