大数据

“大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
数据爬虫,数据可视化,数据清洗,数仓搭建,撰写分析报告,特征工程,机器学习,数据建模,预测聚类 数据库安装,数据写入及报告页面创建,Excel数据处理,Python自动化
520数据分析
每日挂服务器后台定时爬取指定网页的数据,并根据算法筛选出有价值的信息。 不少网页属于非静态页面,不能通过简单的stock协议进行http请求进行抓取数据,只能通过c#或python中的chromedrive来调用chrome浏览器进行页面解析后抓取数据,抓取后的数据会进行分析后存入数据库。
510大数据
所用技术:hadoop、hbase、phoenix、kafka、redis、SparkStreaming 开发环境:IDEA 2020.03、jdk 1.8.0、mysql 5.1.10、maven 3.5 项目描述:通过对H5页面埋点获取用户操作信息。对该信息进行用户行为分析,过滤作弊数据,计算uv与花销。后续对各个小游戏流量数据进行新用户数统计、访问人数、跳出率、留存率等运营指标进行统计,能够帮助运营同事实时查看数据,提升产品精准运营效果,以及反馈给投放引擎,及时对投放广告进行调整。 负责模块:  实时数仓设计,数仓采用4层设计(ods dwd dws ads),建模使用维度模型(星座模型)  实时代码开发,计算批次点击、曝光、计费PV和UV等业务指标,并进行实时扣费  离线代码开发,对实时数据结果进行每小时、每天统计  处理客户反馈问题,日均TB级数据处理,部分实时业务峰值800w条/批  本项目大数据部分主要负责人,协调前端、php、后端与大数据组之间工作。并负责项目大数据部分上线部署,并保证上线后能正常运行 项目建构:  利用js埋点上报数据到Nginx,使用go
330bi
链家网爬取可以输入爬取的地区获取当地的租房的信息,从而找到最适合自己的 堆糖图片下载,可以快速的搜索下载多个图片, 获取短视频的热门, 都可以存入表格中或数据库中
380大数据
所用技术:spark、hadoop、hive 开发环境:pycharm、python2.7.5、MongoDB、mssql、java1.8、elasticsearch、hive 项目描述:通过收集到的明星信息,对已代言明星进行舆情监控以及热度分析,把握艺人实时热度变化,通过代言人优选,根据品牌调性以及明星调性的相符程度,筛选品牌意向代言人,提高决策效率。 数据流向: MongoDB->hive->spark(计算)->mssql 负责模块:  微博舆情分析 (1) 使用mongo-spark-connector官方连接器,通过spark读取MongoDB中微博评论数据,并将数据保存到原始层,确保没问题后删除MongoDB中数据,缓解MongoDB压力。 (2) 使用jieba对微博评论内容进行分词,并获取词性。使用SnowNLP对分词结果进行情感分析。将这些数据保存,其中分词结果使用array格式保存。 (3) 通过集群框架,实现tfidf算法 (4) 对形容词使用tfidf算法分析热词,对情感分析结果按区间进行统计并计数。 (5) 将最终结果使用foreachPa
350java
本项目旨在设计基于人工智能和大数据的集问诊、售药、疫情监控等功能于一体智能医药系统。该系统首先利用红外测温器采集的人体温度、麦克风(阵列)采集的病情描述语音、超高清摄像头采集的患者体表指征图像,然后利用人工智能技术分析患者病情并进行药品推荐。最后,联网的终端实现了药物的高效调度及疫情监控。本系统不仅实现了问诊与售药的智能化,还利用大数据实现了流行病分析与预测,最终形成全流程一体化的智能医药系统。
480python
农业物联网客户数据中心(多用户) url:https://app.ccniot.com 本系统采用 自研API (上禾云图)(https://api.winnto.com/)进行开发,通过自研开放平台 (https://open.winnto.com/) 进行项目管理和配置, 3层架构实现的物联网平台,实现物联网设备的管理、远程控制、数据中心及定制功能开发
430智能硬件
美国国家海洋和大气管理局日前发布数据显示,2021年美国本土48个州和华盛顿哥伦比亚特区遭遇的重大气象灾害已导致近700人死亡,创10年来新高。2021年12月10日夜间,美国中部肯塔基等6州遭遇至少30场龙卷风袭击,造成至少88人死亡,大量基础设施被破坏。受灾最严重的肯塔基州梅菲尔德市中心的砖砌建筑物几乎被夷为平地。突然的极端天气导致人们的生活甚至生命收到极大的危害,此事件在YouTube和Facebook[4]被广泛传播。所以本次设计想通过对美国天气事件近5年的数据进行分析和可视化处理,从而进行规律的寻找和天气的预判。
730大数据
1.与分析师对接数据中台需求,了解分析师诉求并输出原型,拆解成一步步可执行方案 2.低成本技术选型,版本分解,任务分配并在团队中落地、执行、上线、复盘 3.负责指标白皮书等模块开发与对外平台宣讲培训
550springboot
1.功能模块: 用户模块:实现单点登录,用户可实现一键登录,无需多次登录 角色模块:给用户赋予角色权限,用于展示可看的菜单信息 菜单模块:前端已实现动态菜单,拖拽生成 视图分析模块:依托于数据平台展示出不同业务所需的可视化界面信息 数据资源模块:通过点击字段生成sql条件,生成报表,可实现下载、邮箱推送 2. 以上模块都是我个人负责,使用了springboot、redis、mysql、springcloud、antdesign、react等技术栈,最终达到了可交互的数据系统
460大数据
1.实时数据采集采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求 2.数据存储分布式系统包含多个自主的处理单元,通过计算机网络互连来协作完成分配的任务,其分而治之的策略能够更好的处理大规模数据分析问题。 3.数据挖掘分析,记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用
480大数据
1.文本相似度检索 2.大数据抽取,自动检索,摘要,去重等 3.pdf处理 4.大数据分析,挖掘,等等 5.大数据抓取技术,司法,舆情,股票,公告等
490python
1.负责项目架构的设计、各部门之间的沟通、各角色任务的分配等; 2.负责数据接入,主要包括天眼采集行程数据、集团poi数据、用户中心数据、订单数据等; 3.梳理画像标签规则,建立5级标签体系; 4.中间表设计以及相关代码review; 5.核心加油、保险、旅游、演出展览相关标签的功能实现; 6.负责项目的上线、bug修复以及后期维护; 7.支撑了一丰、广丰、雷克萨斯、抖8、基线五个渠道,积累了170个标签,97万用户画像结果;
550web
上禾云图开发者管理(开放平台) https://open.winnto.com/ 开发者注册,认证, 项目管理、项目配置 地理区块管理(GIS标注、设备定位)
460GIS
调用request库 进行网页源码爬取 数据提取用的是lxml 进行了分类保存所以调用了os库 以每部分整合成一个函数,最后写入main()函数
300大数据
大屏监控:统一接口监测大屏、两定机构接口交易监测。统一接口监测大屏:实现了对所有接口统计和检测。两定机构接口交易监测:对两定交易接口监测按行政区划监测,时时动态了解整个内蒙古医保交易情况。 我再本项目中负责需求的调研,文档编写,前端设计,后端编写,前后端联合测试等工作。
520大数据
(一)商品信息维护:增加商品信息,删除商品信息,修改商品信息 (二)商品查询/统计:按商品名称查找,按商品编号查找,查询并显示所有商品信息,统计商品总数 (三)商品排序:根据商品库存排序,根据商品进价排序,根据商品售价排序 系统对这些功能进行整合
830大数据
以图形图像的形式表现海量数据,利用数据分析技术、数据可视化工具来发现隐藏在数据中的信息。数据可视化的本质是将海量数据中的特殊数据进行可视化处理,从而更明确、有效的进行信息传递。让用户以 HTML 或者 SVG 的形式查看可视化,实现人机交互比起枯 燥的数据,浓淡的颜色、不一的大小的形状组合的图像显然更加吸引人,能够更快的识别、理解和记忆数据。数据可视化产业发展前景看好。
880大数据
1.参与架构的设计; 2.负责位置分析、驾驶行为的部分开发; 3.通过sparkstreamming对行程数据进行划分; 4.使用storm程序请求逆地理接口并分区写到hdfs中; 5.通过azkaban调用离线任务,主要为hive和sparksql进行统计并将结果写入elasticsearch和mysql; 6.后期参与维护以及线上资源申请与评估; 7.保障了每天8600万左右数据量的处理,总的车辆数93万左右;
720web
在当今时代,数据已成为各行各业的核心,而数据分析和可视化在业务决策和洞察发现中发挥着至关重要的作用。通过本项目,我们着重探索了使用R语言来分析和可视化餐厅数据集的过程。这个数据集包括餐厅的名称、国家代码、城市、地址、经纬度、菜系、人均消费、货币单位、是否接受桌位预订、是否提供在线订餐和送餐服务等信息。 我们的第一个分析任务是查找并可视化投票数最多的前十个餐厅。为了将结果以清晰直观的方式呈现出来,我们使用ggplot2来创建一个条形图,其中横坐标是餐厅的名称,而纵坐标是投票数。接下来,我们分析了餐厅的地理位置,并根据经纬度创建了一个散点图。这种可视化有助于我们了解餐厅在地理上的分布,可以用于分析是否存在特定的热点区域。我们还分析了餐厅所在的国家代码,并计算了每个国家代码的餐厅数量。我们创建了一个柱状图来展示这些信息,这有助于我们理解哪些国家在数据集中具有更多的餐厅。此外,我们还研究了与餐厅的在线可用性相关的属性,包括是否可以预订桌位、是否提供在线订餐和是否正在提供送餐服务。对于这些属性,我们创建了饼图来展示“是”和“否”的比例。这种可视化有助于我们了解餐厅业的线上服务情况。最后,我们分析
540大数据
当前共444个项目
×
寻找源码
源码描述
联系方式
提交