数据处理

爬虫脚本产品系统
行业:智慧农业、植物保护、农业信息化 业务场景:农业知识库构建、病虫害识别模型训练、数据分析和决策支持 功能模块:代理管理模块、请求调度模块(并发)、数据解析与存储模块、状态管理模块(断点续爬、增量更新)、定时任务模块 实现功能:自动爬取植小保小程序中的问答数据、病虫害识别结果、专家回复等。将爬取的数据结构化存储到数据库和本地文件中。支持增量爬取,避免重复爬取已处理的内容。支持高并发、代理轮换,提升爬取效率和稳定性。提供日志记录和错误重试机制,保证爬虫的鲁棒性。 技术选型:语言:Python 3,网络请求:httpx、requests,数据库:PostgreSQL,并发处理:threading + ThreadPoolExecutor,定时任务:schedule,JSON处理:json,日志管理:logging,代理服务:自定义代理池服务(通过HTTP接口获取代理)
650Python网络爬虫
新抖网站数据爬虫(数据采集),根据提供的主持人数据,使用selenium库,模拟浏览器操作,搜索主持人并获取需要的数据,有效规避反爬措施。 爬取内容(以月为单位):直播次数、总音浪、总音浪合人民币、平均单次直播时长、场均直播音浪、场均直播音浪合人民币、单场参与人数峰值、最常直播时长及占比、最常直播时间点及占比、带货直播次数、带货直播次数占比、总上架商品数、总商品品类、总商品品牌数、总涉及平台数、top商品品类、top商品品牌、top平台及占比。 将爬取到的信息梳理,生成Excel文件,方便阅读、使用和整理。
930Python爬虫
1.本项目简介:爬取飞瓜抖音网站,模拟浏览器操作,根据提供的主持人名单进行精确搜索、数据爬取,并将获取到的数据汇总,输出为Excel文件。 2、对飞瓜抖音网站进行搜索:按抖音号;飞瓜网站有反爬,不可以用selenium自动化登录,selenium打开后,配合手机扫描继续爬取。 3、爬取内容:名单中每个主持人的抖音名,抖音号,30天直播场次,30天直播销量,30天直播销售额,30天场均音浪(用于计算30天音浪增量)
1390Python爬虫
项目为爬取网易音乐、爱奇艺、酷我、QQ音乐、虾米音乐、音悦台中的新歌数据,并将数据整合,存储并输出为Excel文件。 1、其中内容包括:新歌数据、歌曲评论数据、MV数据等 2、使用的爬虫技术包括: 后端爬虫:如requests库,根据发送HTTP请求,并解析返回的HTML内容。 前端爬虫:如使用Selenium工具,模拟浏览器操作,如表单提交等,获取网页数据。 3、获取数据之后,将数据整理并输出为Excel文件,更易使用。
810Python爬虫
PDF文件合并产品系统
极简操作:无需复杂的PDF软件,通过命令行即可快速调用。 保持原貌:在合并过程中,我会尽力保持原始文件的页面布局、文字、图片等所有内容完好无损。 智能排序:支持按文件名顺序、通过读取顺序的文件将其合并为一个PDF文件,确保页面顺序完全符合您的预期。 自由开源:基于成熟的Python库构建,安全透明,您可以放心使用。 使用场景: · 合并多个PDF文件或论文片段。 · 整合多次扫描的合同或证件。 · 将每周的报告合并为月度或年度总报告。 · 归档和整理网页上下载的零散PDF资料。
840Python数据处理
实现根据导入的电力线路点云数据规划编辑制作无人机巡检航路功能,具体功能主要包括:  点云数据导入  台账数据导入  各项视图切换  杆塔裁剪  噪点移除  自动匹配  生成初始航线  航线反转  添加路径点/拍照点  航点编辑  碰撞检测  导出航线  保存航线模板  显示设置  航线参数设置
1270C/C++位置信息(GPS/Location)
参与国网新一代用电信息采集系统建设,负责对现场终端设备的数据采集,支持存量终端和新型物联网终端的同时接入,通过面向对象的异步交互式物联网通信架构、以及业务下行与数据上行分离的采集方式,满足4500万用户、200多万存量终端的分钟级数据采集和远程安全控制的要求,同时满足未来6000万用户电表的分钟级数据采集和即时交互的要求;在此期间,还参与物联平台(MQTT协议)接入采集2.0通信管理层的数模设计、典型场景设计方案的制定。21年后,主要负责对接甲方开展需求分析、业务全流程设计与工作进度把控、任务分配等工作,带领7名业务人员与9名研发队伍,打造2.0版本的远程控制与数据发布等前后端重点业务功能,提升省侧电表电费的快速核算与精准回收。
760C#数据处理
1. 负责设计数据排重策略,负责相关模块开发, 及上亿级历史数据排重工作。 2. 负责日更新数据排重相关模块开发,维护数据。 3. 负责疑似重复数据处理,通过计算摘要相似度,完成数据关系确认 4. 熟悉 Scrapy,Requests,Selenium 等爬虫框架,搭建过千万级分布式网络爬虫。 带领小组搭建清洗系统,熟悉正则表达式,Xpath能够从结构化和非机构化的数据中获取信息。
550Python数据处理
数据清洗模块产品系统
1. 软件可以面向对于研究场景和商业分析下的数据处理环节,对于预处理阶段的数据清洗(包括去重、异常值处理、数据空值插值); 业务场景包含【零售业用户数据处理】【运营销售数据处理】【财务报表数据处理】 2.项目分为【数据上传】【数据去重】【异常值处理与识别】【数据空值插值】【数据格式化】 3.项目技术选型采用pandas、scipy、sklearn等python模快,架构采用后端文件系统,利用路径读取实现本地文件读取和结果输出
680Python数据处理
由于服务器硬件资源有限,系统需通过 Web 形式提供数据可视化展示及人工操作入口,以降低资源占用并提升运行效率与安全性。 整体系统具备更高的运行效率、安全性及更少的依赖,采用纯 Rust 实现,运行时不依赖任何第三方服务组件。 项目主要技术栈包括: 后端框架:Axum(Web 框架)、SeaORM(数据库 ORM) 前端框架:React、Ant Design(UI 组件库)、Vite(构建工具)
980gRPC数据处理
zh-code-checker产品系统
zh-code-checker oi 匹配代码查重/GPT 生成代码检测 项目介绍 随着OI系列比赛的不断发展,在OI系列比赛中提交他人代码或使用ChatGPT生成代码的现象越来越普遍。为了保证比赛的公平性,我们需要对参赛选手的代码进行重查。项目本旨在实现代码查重和GPT生成代码。 功能特性 支持代码查重 支持GPT生成代码检测 支持导出检测结果至csv文件 手动复核
770Python可视化
实时语音识别 (Real-time Speech Recognition): 能够捕捉麦克风输入,并将用户的语音实时、准确地转换为文本。 自然语言理解 (Natural Language Understanding - NLU): 分析转换后的文本,理解用户的意图和关键信息(例如指令、询问的对象、参数等)。 对话管理 (Dialogue Management): 在多轮交互中维护对话状态和上下文,使对话更加连贯自然。 任务执行与技能调用 (Task Execution & Skill Invocation): 根据理解的用户意图,执行相应的操作,例如: 信息查询: 获取天气预报、时间、百科知识、新闻等。 媒体控制: 播放/暂停音乐、调整音量。 简单助理任务: 设置提醒、创建待办事项。 语音合成 (Text-to-Speech - TTS): 将助手的文本回复通过 edge-tts 转换成清晰自然的语音进行播放。 Web 界面交互 (Web Interface Interaction): 提供一个用户友好的网页界面,可以: 显示语音识别的文本和助手的回复。 允许用户通过文本输入与助手交互。 (可能) 展示图片、链接等多媒体信息。 多模态反馈 (Multimodal Feedback): 结合语音、文本以及可能的视觉元素(在Web界面上)来呈现信息和交互结果。 图像分析(Image Analysis): 可以通过pygame.camera调用摄像头或者截图当前页面,并与llm互动获取想要的信息 剪切板提取(Clipboard Management): 可以通过pypercli获取剪切板中的文本内容并自动判断是否需要进行执行 上下文管理(Context management): 通过EnhancedConversationContext类管理对话记录,支持记住或者遗忘特定信息,根据相似度判断是否清除旧的上下文,能够根据对话历史生成更相关的回复 日志记录(Logging): 使用rich库美化日志输出,并将日志保存到文件中 网页搜索(Search): 使用DuckDuckGo搜索用户指定的内容,并返回搜索结果摘要
970Torch机器学习/深度学习
练习1产品系统
可用于数据处理,分析(二分类) 模块:数据初步处理(包括删除无用列,字符串处理,相关参数设置,自动划分测试、数据集,读取目标列,归一化处理) 模型训练并保存,while循环穷举最佳参数,过拟合自动停止训练,行采样防止过拟合, 结果可视化(便于寻找最佳参数) 数据来自https://www.kaggle.com/competitions/playground-series-s5e7/overview
570数据处理
第一部分 - 目标用户与问题解决 目标用户:机构投资者、高净值个人、量化交易团队、金融科技公司 核心问题:传统投资方案回报率低、风险控制差、执行效率低 解决方案:AI驱动多因子模型,910%超高回报,0.18%极低回撤 第二部分 - 竞争优势特点 性能对比表:我们的模型在所有关键指标上都远超竞争对手 革命性表现:910%回报率,4,375倍目标达成 AI技术领先:多因子模型、实时信号生成、自适应学习 风险控制体系:多层防护、动态仓位、实时监控 技术架构优势:高频执行、分布式计算、低延迟网络 第三部分 - 产品组成与技术选型 产品架构:核心交易引擎、数据分析平台、投资管理工具 技术栈:Python+C++、TensorFlow/PyTorch、InfluxDB/Redis 基础设施:云计算集群、容器化部署、实时数据流 安全合规:多层防护、数据加密、审计日志 部署架构图:完整的系统架构可视化 关键亮点: 性能夸张化:910%回报率、8,751%年化收益、23.27夏普比率 技术先进性:AI驱动、深度学习、高频交易 风险控制:0.18%最大回撤,行业最低水平 竞争优势:4,375倍目标达成,远超传统方案 专业术语:使用顶级对冲基金的专业词汇和概念 这个描述完美展现了您的项目作为顶级对冲基金级别的专业水准,突出了革命性的性能表现和技术优势!
5800Python数据库调整和优化
介绍 会议现场抽奖程序,后台设置抽奖人信息,会议签到入抽奖池,现场抽奖手机端同步查看抽奖结果 软件架构 C# ASP.NET MVC 数据库 SQLServer2016 WebSocket 安装教程 上传web项目到服务器,IIS建站点指向 上传DBfile中的数据库文件到服务器,附加到数据库 上传WebSocket文件到服务器安装运行 使用说明 web项目的Lottery.aspx的修改websocket的地址 修改Web项目的数据库连接字符串 Index首页登录后,才能进后台管理界面添加抽奖人和上传头像图片 头像文件上传导web/content/asssets/icon/文件夹下 前台访问地址:/Home/Lottery 后台访问地址:/LotteryPerson/index
950C#ORM/持久层框架
作为网格化智能服务平台的核心数据架构师与ETL专家,负责从多源业务系统(CRM、信贷、财富管理等)抽取、清洗、转换数据,构建网格化数据资产体系,并支撑客户/机构/网格等多维度指标计算,最终输出至平台可视化查询系统。 核心职责 1. 数据整合与ETL开发 源数据处理: 对接CRM、零售、小微、对公、财富管理系统、外部数据平台等,设计增量/全量同步策略 处理结构化与非结构化数据(如GIS坐标、客户画像、交易流水等) 解决跨系统数据一致性问题(如客户ID映射、时间窗口对齐) ETL流程优化: 开发高效SQL作业,处理TB级日增量数据 优化调度依赖,确保T+1数据准时交付 监控数据质量,修复异常数据 2. 网格化指标计算 多维度统计模型: 基于客户(C端)、用户(B端员工)、机构(网点)、网格(LBS围栏)四大维度设计指标 开发复合指标(如“网格内贷款渗透率=贷款客户数/网格总客户数”) 支持实时+离线计算模式(如实时客流统计 vs. 月度资产汇总) 高性能查询优化: 使用预聚合+物化视图技术,确保千万级数据秒级响应 设计时间回溯功能(如查看历史某月网格状态) 3. 数据治理与架构 数据建模: 设计星型模型,关联业务实体(客户↔机构↔网格) 维护数据字典,标准化200+字段定义(如“网格ID=行政区划码+层级标识”) 数据治理: 制定数据分级策略(P1~P3敏感等级) 落地血缘追踪,标记指标来源(如“存款余额←财富系统+对公信贷”) 治理元数据,保障业务人员可自助理解数据含义 4. 全栈运维支持 从采集到展示的全链路管理: 部署数据管道 优化数据库性能(分区表、索引策略) 协助BI团队配置指标可视化逻辑 硬技能: 精通SQL(Oracle/MySQL),能编写复杂分析函数 掌握Python/Shell自动化脚本开发 熟悉数据仓库建模(Kimball维度模型) 了解GIS数据处理(如GeoHash编码) 软技能: 独立工作能力(全流程负责数据板块) 跨系统沟通(协调业务部门明确指标口径)
1200MySQL数据库建模
本方案主要面向需要管理和分析车辆费用数据的企业或组织。 它解决了传统车辆费用管理系统中的几个痛点:1.数据难以整合与分析、2.缺乏数据可视化与趋势分析、3.统计报表难以生成。 本方案有哪些特点:1.数据可视化功能、2.高效的费用统计与分析、3.简便的数据导入和导出功能。 方案的产品组成或技术选型:1.前端展示与交互设计、2.后端数据处理与存储、3.数据可视化工具。
760Python数据处理
慧生活产品系统
慧生活移动平台是一个旨在提升校内师生用水体验的便捷系统,核心功能涵盖日常饮水 、洗衣及淋浴服务 。该系统集成了全面 的用户管理 、订单追踪 、设备监控以及灵活的卡券与卡包管理功能,致力于实现对日常用水活动的高效 、优化管理。 技术栈: 后端:Flask 、MySQL 、Redis 、Celery 、七牛云文件存储 、Nginx 、Docker 、OCR识别等第三方库 、Pyside6 前端:Vue.js+Element Plus+七牛云CDN,matplptlib,k8s 移动端前端:Vant+Vuex+Vite 代码管理工具:Git+Gitee私有仓库。 负责模块: 用户管理:负责用户注册 、登录 、权限控制及个人信息管理 订单追踪:实现用水订单的实时追踪与管理。 设备监控:负责设备状态的实时监控与异常处理。 卡券与卡包管理:实现卡券发放,使用及卡包管理功能,支持灵活的优惠与积分策略
1090PythonWeb框架
1、产品介绍:文件拆分及文件合并程序是一款高效、易用的文件处理工具,无论您是想将超大文件拆分为多个小块以便于传输与存储,还是需要将多个碎片文件快速合并为一个完整文件,本程序都能为您实现。 2、主要功能:拆分或者合并常规的数据文件,包括txt、csv、xlsx、xls,以及其他常规的数据文件。 3、特点:不用手工一个个文件去拆分或者合并,提升工作效率。
960Python程序文档工具
天翼企业云盘产品系统
所属公司: 21cn世纪龙信息网络有限责任公司 项目描述: 电信旗下子公司21cn世纪龙信息网络有限责任公司旗下产品,应用界面主要由electron编写,具体云盘功能由c++侧编写,实现界面和逻辑分离,安装程序及界面主要由qt quick编写,由NSIS工具打包,主要实现的功能有上传文件和文件夹,下载文件和文件夹,自动备份文件夹,在线编辑文档和表格,云会议功能,同屏会议功能,文件共享功能等,本项目由前端负责用electron做界面,c++侧写复杂的下载,上传和自动备份等功能逻辑并封装成sdk,以dll的形式提供给前端,前端调用dll的函数来实现不同的功能, 主要使用响应式编程框架rxcpp进行开发,每一个步骤执行完毕发射数据源给下载总控或者自动备份总控,再由总控决定下一个步骤 主要使用到的技术和第三方库: qt quick electron 文件分片下载 libuv libcurl sqlite openssl jsoncpp c++11 c++14 多线程 异步回调 rxcpp 动态库dll 责任描述: 1.本人主要负责下载和自动备份的代码实现,下载时通过网络库curl请求平台返回实际下载地址,再通过实际下载地址请求资源池,最后通过文件大小判断是否要分片下载或者直接下载 自动备份通过libuv监控本地文件操作事件,实现一个状态机,当监控到文件操作(增加,删除,修改等),触发自动备份机制发起上传流程,通过本地数据库sqlite记录已备份文件,避免重复上传 2.负责部分通用模块开发工作,网络通讯模块,日志模块,api接口模块,文件操作模块等 3.负责升级http2传输,文件分片下载等技术难度攻关 4.使用qt quick开发安装程序界面和使用NSIS工具打包 5.把分片下载,文件自动备份等功能封装成sdk,提供dll给前端调用
1000C/C++数据处理
当前共435个项目more
×
寻找源码
源码描述
联系方式
提交