图像识别

本项目是一个面向计算机视觉领域的算法库,聚焦于图像分类任务,旨在为科研开发者提供简洁、可复用的模型实现与实验基础。其主要功能模块包括:核心模型集:提供多种经典卷积神经网络实现,包括LeNet、AlexNet、VGG、GoogLeNet、ResNet、Inception系列、DenseNet等,涵盖从
2220Python人工智能
?智能监控三区域监控:支持同时监控3个屏幕区域(Boss血量、技能读条、技能喊话)实时OCR识别:使用PaddleOCR进行高精度中文文本识别规则匹配:支持自定义监控规则,精确匹配关键文本?语音播报EdgeTTS:使用微软EdgeTTS引擎,支持多种中文语音智能缓存:自动生成和缓存音频文件,提高响应
960Python人工智能
对图像进行识别并评估图像识别的准确率 1) 对推理的数据集进行分割; 2) 网络分配已分割的数据集; 3) 远程控制推理; a. 初始化推理设备 b. 加载推理模型 c. 数据推理前处理 d. 数据推理 4) 返回推理后的推理结果; 5) 对推理结果进行处理获得FPS值(加速卡每秒钟推理的图片数量,其中推理包括推理前处理、推理及推理后处理三个部分)及推理的精度值;
1470C/C++AI
本项目通过对近千张工人安全帽佩戴与未佩戴的有标注数据集,使用paddleDetection神经网络模型对其进行训练,最终的获得了一个可以针对视频流中未带安全帽人物发出识别报警的视觉神经网络。 同时又通过对近千张工人睡岗与未睡岗的有标注数据集,使用pp-Human神经网络模型对其进行训练,最终的获得了一个可以针对视频流中睡岗人物发出识别报警的视觉神经网络。 开源地址是训练过程与部署文档
1430python工业互联网
Ace-Translate开源项目
1.在信息全球化的今天,语言跨越不再成为障碍是每个跨文化交流者的梦想。因此,我们为您隆重推荐【Ace-Translate】——一款突破性的本地离线翻译工具,为您的学习、工作与生活带来前所未有的便利。 2.这款翻译工具的特色是支持多种翻译场景分别有:文本翻译,划词翻译,截图翻译,视频翻译,文件翻译,包,TXT文件、Excel、PPT、PDF、图片和Word,文档图片翻译。 3.在开源项目地址中有上手的教程
2160图像处理人工智能
最早一批的Comfyui插件作者 A100训练过大语言模型,对语言模型数据处理、训练有一定的了解 训练图像模型,在sd模型civitai上有发布有、comfyui插件作者。与达摩院合作开发开源项目 facechain Agent方面:langchain-chatchat贡献者,熟悉langchain、eliza开源项目贡献者
1600图像处理人工智能
本项目为首个支持Typst数学公式的OCR模型. 该模型基于TrOCR结构, 包含一个ViT Encoder和一个GPT2 Decoder. 提供了一个Python后端和Vue前端供用户使用. 详细信息见: https://github.com/ParaN3xus/typress
2900python人工智能
本方案面向企业级客户,解决他们在实际业务中对图像处理的需求,如产品缺陷检测、医疗影像分析等。 【50%】相比于市场常规方案,本方案具有以下特点: 高精度:采用先进的深度学习模型,如YOLO(You Only Look Once)和Transformer变体(DINO等),在物体检测和图像分割任务上表现出色。 快速响应:通过优化算法和硬件配置,实现快速实时处理大量图像数据,满足工业生产线上高效率的要求。 灵活定制:可根据客户需求进行个性化定制,包括但不限于特定场景下的目标检测、多类别的图像分类等。 可扩展性:支持模块化设计,方便后续功能升级或与其他系统集成。 【20%】方案的产品组成和技术选型: 数据采集:使用高清摄像头或其他传感器设备获取原始图像数据。 前端处理:利用GPU加速计算平台进行实时预处理,如图像缩放、色彩转换等。 模型训练:基于TensorFlow或PyTorch等深度学习框架构建YOLOv5或ViT(Vision Transformer)模型,并在标注好的数据集上进行训练。 后端应用:将训练好的模型部署到服务器或边缘计算设备上,实现实时图像处理与分析。 用户界面:提供可视化操作界面,便于用户查看处理结果并进行参数调整。 总之,该方案结合了前沿的计算机视觉技术与灵活的定制能力,旨在为企业客户提供高效、精准的图像处理解决方案。
1800深度学习人工智能
使用Pytorch基于Unet通过当前云图进行对全球范围内未来三小时内的全球降水量实施预测 目前,气象学中的许多传统降水预测方法都需要输入多种类型的数据作为参数。本研究旨在探索如何利用深度学习技术,仅使用输入的云图进行降水预测。本文建立了利用 U-Net 通过云图数据预测降水的技术路线,并进行了实验。利用 U-Net 成功训练并预测了降雨模型。
1760python人工智能
AI网站开源项目
运用和gpt一样的逻辑设计的,模块化的小功能会多一点,能AI绘图以及声音处理等小组件 能做简单的视频处理,包括但不限于处理帧数以及画面清晰 也可以训练AI模型,可以随意切换语言大模型,内置gpt4o以及3.5以上语言模型,用户可以根据自己的需求进行购买 当然运用他的组件模型也可以在pdf上面可以帮助用户做一些需求
2491服务器测试人工智能
应用场景:针对建筑工人的安全帽与反光马甲检测,预防安全事故发生。 1. 训练数据收集与整理; 2. 使用LabelMe进行数据标注; 3. 改进YOLO算法,算法评估与优化; 4. 使用Flask框架进行后端开发 5. 运行环境:NVIDIA Jetson TX2
3980C/C++人工智能
本项目开发一个书籍自动翻译器,该翻译器能够对pdf或word格式的文档进行自动翻译成中文,并输出为pdf或markdown格式的文件。 该工具使用了大语言模型LLMs(GPT-4o等),可以根据配置文件选用不同的大模型 主要开发语言为Python,该项目是模块化的,并且面向对象的设计,易于定制或拓展
3530深度学习人工智能
在推理过程中,如果我们希望不增加计算力和空间随着推理长度的增加,可以考虑使用某些特定的算法和数据结构。例如,可以使用动态规划、滑动窗口等技巧来降低算法的时间复杂度和空间复杂度。 以动态规划为例,它是一种通过将复杂问题分解为更小的子问题来解决原问题的方法,并且保存子问题的解以避免重复计算。这样,在处理长序列的推理任务时,动态规划可以帮助我们避免不必要的重复计算,从而减少计算力和空间的消耗。 再比如,当我们在处理文本数据时,可以使用滑动窗口技术来处理长文本。滑动窗口技术允许我们在不增加额外空间的情况下,对文本序列进行分块处理,从而减少了空间复杂度。 除此之外,还有一些模型压缩和优化技术,如模型剪枝、量化、低秩分解等,可以在不牺牲太多性能的情况下,减少模型的体积和计算量,从而使得模型在推理时更加高效。 总之,通过合理地选择算法和数据结构,以及使用模型压缩和优化技术,我们可以在推理过程中不增加计算力和空间随着推理长度的增加。
1780python自然语言,llm ,人工智能
该项目纯自己手写,无复用其他GitHub。 该GitHub使用C++算法对yolo算法进行改写,此外还做了一些推理加速,减少使用内存的操作。
3570C/C++图形和图像工具
网站地址:www.zhiyangroup.com 该网站展示了之前我们做过的一些能力,目前还在做一些新的技术,包括深度学习算法部署、AIGC等。
2410flask图形/图像处理
1.懂目标检测,语义分割,物体分类的基本范式代码实现,pytorch框架为基础的深度学习代码调试,复现,改进;目标检测的yolo,fasterrcnn,detr等算法 2.进阶框架openmmlab系列,包括mmdetection,mmseg,mmcls,mmfewshot熟练使用和实现想法;yolo官方代码库ultralytics的熟练使用和实现想法;paddlepaddle的基础使用(熟练待学); 3.还在自学大模型相关知识和java全套 4.语言:python,java,c++
1141深度学习目标检测
• 参与建立车辆轨迹数据集,并将其存储在AWS S3中以实现高可用性 • 创建带有GPU的AWS EC2实例,并在其上进行Fast R-CNN模型的训练和验证 • 基于Angular框架开发动态响应的前端网页,以显示模型的预测结果 • 使用Docker容器和local repositories来构建Docker镜像
2740深度学习深度学习
当前共17个项目more
×
寻找源码
源码描述
联系方式
提交