Torch

Torch是一个开源的机器学习框架,最初由纽约大学团队开发并以Lua语言实现,因其灵活性和强大的张量计算能力在学术研究中广受欢迎。其核心设计以​​动态计算图​​为特色,支持交互式调试和直观的模型构建方式,尤其适合深度学习领域的快速原型设计和实验迭代。2017年,PyTorch作为Torch的Python版本正式发布,继承了Torch的灵活性与核心理念,同时依托Python丰富的科学生态(如NumPy)和更广泛的开发者社区,迅速成为主流。PyTorch通过​​自动微分(Autograd)​​、​​GPU加速张量运算​​以及​​模块化的神经网络构建接口(torch.nn)​​,为研究人员提供了极致的灵活性和控制力,其动态图机制使得模型调试和修改更为直观便捷。尽管后续版本增加了对生产部署的优化(如TorchScript),但其核心优势始终体现在研究和实验阶段的高效性上。PyTorch现已与TensorFlow并列成为深度学习领域最具影响力的框架之一,被广泛应用于学术研究、工业探索以及各类AI模型的原型开发。
Myolotrain开源项目
Myolotrain是一个可视化管理yolo视觉模型训练的系统,为计算机视觉任务提供了直观的图形界面。该平台集成了在线标注、数据集管理、模型管理、训练管理和目标检测功能,支持windows、linux、docker等多种部署方式,使用户能够轻松地训练和部署YOLOv8模型,支持CPU和GPU,使用t
761Flask人工智能
2022年3月以来,上海本土疫情呈多点散发、多链并行、隐匿传播、快速蔓延态势,被报告的感染者主要为奥密克戎变异株BA.2分支,截至4月27日,总感染人数已超过54万。项目旨在通过收集并可视化上海市卫健委发布的官方数据,展现上海各区县疫情动态分布情况,并将其整理为机器可读的数据格式进行开源。
670Python人工智能
multi agent开源项目
我们提出了一个高度自主的多智能体框架,该框架能够支持大型语言模型(LLM)在具有挑战性的线性注意力机制领域开展端到端的科学研究。我们的框架支持以下功能:自主架构发现流程:一个完整的多智能体系统,能够自主推测新的架构概念、将其编码实现,并通过系统性实验对性能进行实证验证。架构数据库:基于MongoDB
500Torch人工智能
本项目是一个基于Django框架的技术合同智能生成系统,主要包含以下功能模块:1.合同智能生成模块:提供完整的合同表单填写界面,支持20个关键合同条款的定制化输入,包括许可方信息、专利明细、费用支付方式、保密条款等,能够根据用户选择动态显示相关字段。2.文件管理下载模块:具备合同文件列表展示功能,支
1400Python人工智能
AI文生图开源项目
基于StableDiffusion开源接口构建的AI视觉创作平台,在交互与功能层面实现全链路优化:前端采用Vue框架打造直观流畅的操作界面,用户可轻松完成参数配置、模型选择与生成预览;模型应用支持双模式——既提供经过性能优化的系统预置模型,满足快速出图需求;也开放用户自定义训练通道,允许上传专属数据
1150Python人工智能
本项目使用Google提供的vit-base-patch16-224-in21k模型进行微调,完成了犬类品种分类任务。 训练时长: 5个epochs。 深度学习框架: PyTorch。 前后端实现: Flask 和 HTML。 通过简单的操作,即可在本地端口5050访问前端WebUI,并拖拽图片实现犬类品种的识别。
680Pythonwebapp
rope 二开开源项目
Rope 二次开发项目:功能增强与性能优化方案 一、 项目概述 本项目旨在对开源项目 Rope-Ruby / Rope-Opal(或其他基于 Rope 核心的换脸工具)进行二次开发。核心目标是在原有实时视频换脸功能的基础上,引入突破性新功能、显著提升处理效率与输出质量,并改善用户交互体验,使其更适用于专业级和高效率的生产环境。 二、 原有基础功能回顾 原 Rope 项目通常具备以下核心功能: 实时视频换脸:基于深度学习模型,对视频流或视频文件进行人脸替换。 图形用户界面(GUI):提供参数调节面板,如人脸识别精度、融合程度、分辨率等。 模型管理:支持加载多种预训练的人脸交换模型。 基础输入/输出:支持摄像头捕捉、视频文件输入和处理结果输出。 三、 二次开发核心新功能说明 多脸同时识别与替换 功能描述:单次处理可自动检测并替换视频画面中出现的多张人脸,而非仅限于主目标人脸。 技术要点:改进人脸检测和跟踪算法,为每个检测到的人脸分配独立的处理线程和模型实例,并在UI上提供分别控制选项。 价值:极大扩展了应用场景,如合拍视频、会议录像、影视剧群像场景处理。 高级后处理与融合引擎 功能描述:新增一个综合后处理模块,专门优化换脸后的最终效果。 子功能: 颜色自适应:自动分析源脸和目标脸部的肤色、光照条件,并进行精准匹配,消除色差。 光影重打光:根据目标人脸的光照方向和环境,对源人脸进行虚拟“重打光”,使融合更加自然。 锐化与降噪:智能锐化输出画面,同时抑制处理过程中可能产生的噪点和伪影。 音频克隆与口型同步 功能描述:不仅换脸,还能将声音替换为源人物声音,并确保口型与新声音完美同步。 技术要点:集成如 OpenAI's Whisper(语音转文本)、Coqui TTS 或 Microsoft VALL-E(文本转语音克隆)以及 Wav2Lip(口型同步)等模型管道。 价值:实现真正的“深度伪造”,产出内容的可信度和沉浸感达到新高度。 批量处理与任务队列 功能描述:支持添加多个视频任务到一个处理队列中,无需人工干预即可顺序或并行处理。 技术要点:开发一个稳定的任务调度系统,支持断点续处理、优先级设置和资源分配管理。 价值:极大提升工作效率,满足影视后期等需要处理大量素材的场景。 四、 优化流程与性能提升 推理引擎优化 目标:提升帧率(FPS),降低延迟和资源占用。 措施: 模型量化:将模型从 FP32 转换为 FP16 或 INT8,在几乎不损失质量的前提下大幅提升速度并减少显存占用。 算子融合与图优化:使用 TensorRT、OpenVINO 或 ONNX Runtime 对模型图进行深度优化,合并冗余计算层。 硬件特定加速:全面优化对 NVIDIA GPU(CUDA/cuDNN)、Apple Silicon(MPS)和 Intel CPU(OpenVINO)的支持。 内存与管道优化 目标:避免内存泄漏,支持处理长视频和更高分辨率视频。 措施: 流水线并行:将视频读取、人脸检测、换脸推理、后处理、视频编码等步骤解耦成并行流水线,充分利用硬件资源。 显存管理:实现显存池化和动态加载机制,及时释放不再使用的中间张量。 分块处理:对于超高分辨率视频(如4K),采用分块处理再拼接的策略,避免显存溢出(OOM)。 算法与模型优化 目标:提升换脸质量、减少闪烁和抖动。 措施: 集成更优模型:替换或融合更高性能的 face detector(如 YOLOv8-face)、face parser 和 swapper 模型(如 SimSwap、InsightFace)。 时序一致性处理:引入时间序列滤波器(如光流引导、卡尔曼滤波),利用前后帧信息稳定人脸特征,减少视频闪烁。 超分辨率增强:在输出前集成人脸超分模型(如 GFPGAN、CodeFormer),对替换后的人脸进行修复和增强,使其清晰度与原始视频背景匹配。 五、 实施流程建议 阶段一:环境搭建与代码剖析 Fork 原项目仓库,建立开发分支。 深入阅读源码,理解其架构、数据流和核心模块(如 processing.py, core.py, models.py)。 搭建完整的开发、调试和测试环境。 阶段二:基础优化与加固 实施推理引擎优化(如转换为 TensorRT)。 修复已知的 Bug 和内存泄漏问题。 此阶段目标是得到一个更稳定、更快速的“基础增强版”。 阶段三:模块化开发与集成 以模块化方式开发新功能。例如: multi_face_processor.py (多脸处理模块) enhancement_module.py (后处理模块) audio_pipeline.py (音频克隆管道) 逐个功能进行集成和测试,确保与原有代码兼容。 阶段四:UI/UX 重构与测试 为所有新功能设计并开发直观的 GUI 控件。 进行大规模的功能测试、压力测试和用户体验测试。 收集反馈,进行迭代优化。 阶段五:发布与部署 编写详细的安装说明和使用文档。 打包发布(可提供 Docker 镜像简化部署)。 考虑持续集成/持续部署(CI/CD)流程,便于未来更新。 六、 预期成果 完成二次开发后,项目将蜕变为一个功能强大、性能卓越、体验专业的下一代深度合成工具,在视频创作、影视预演、虚拟人直播等领域具备极高的实用价值和竞争力。
4320PythonAPP
TextGAN-Researcher开源项目
该项目引入了基于新颖的TextGAN-D 框架构建的深度研究代理 (DRA)。 TextGAN-D重新概念化了生成对抗网络 (GAN),以状态管理为核心,并以代理对话为对抗机制。它将软件工程的稳健性(例如,单一事实来源、不可变日志)与 GAN 固有的动态演化能力相结合。这种融合创造了一个高度通用且强大的智能生成系统,该系统能够从自身历史中学习,并通过结构化的对抗过程进行自我改进。本文提出的深度研究代理正是利用了 TextGAN-D 的这些固有特性,实现了卓越的知识发现、信息合成和自我优化能力。
730PythonLLM
1. 本项目解决了手写数字识别的问题,通过神经网络对MNIST数据集中的手写数字进行准确预测。 2. 本项目采用神经网络技术,特点是基于MNIST数据集训练,能高效预测手写数字,界面简洁直观,性能表现稳定。 3. 快速上手本项目,只需下载代码,运行应用程序,点击“Choose Image”选择手写数字图片即可查看预测结果。
610TorchGUI开发框架
实时语音识别 (Real-time Speech Recognition): 能够捕捉麦克风输入,并将用户的语音实时、准确地转换为文本。 自然语言理解 (Natural Language Understanding - NLU): 分析转换后的文本,理解用户的意图和关键信息(例如指令、询问的对象、参数等)。 对话管理 (Dialogue Management): 在多轮交互中维护对话状态和上下文,使对话更加连贯自然。 任务执行与技能调用 (Task Execution & Skill Invocation): 根据理解的用户意图,执行相应的操作,例如: 信息查询: 获取天气预报、时间、百科知识、新闻等。 媒体控制: 播放/暂停音乐、调整音量。 简单助理任务: 设置提醒、创建待办事项。 语音合成 (Text-to-Speech - TTS): 将助手的文本回复通过 edge-tts 转换成清晰自然的语音进行播放。 Web 界面交互 (Web Interface Interaction): 提供一个用户友好的网页界面,可以: 显示语音识别的文本和助手的回复。 允许用户通过文本输入与助手交互。 (可能) 展示图片、链接等多媒体信息。 多模态反馈 (Multimodal Feedback): 结合语音、文本以及可能的视觉元素(在Web界面上)来呈现信息和交互结果。 图像分析(Image Analysis): 可以通过pygame.camera调用摄像头或者截图当前页面,并与llm互动获取想要的信息 剪切板提取(Clipboard Management): 可以通过pypercli获取剪切板中的文本内容并自动判断是否需要进行执行 上下文管理(Context management): 通过EnhancedConversationContext类管理对话记录,支持记住或者遗忘特定信息,根据相似度判断是否清除旧的上下文,能够根据对话历史生成更相关的回复 日志记录(Logging): 使用rich库美化日志输出,并将日志保存到文件中 网页搜索(Search): 使用DuckDuckGo搜索用户指定的内容,并返回搜索结果摘要
970Torch机器学习/深度学习
项目技术:数据增强(镜像反转、左右各旋转30度、增加噪点、MSRCR处理光线)、迁移学习、ReduceLROnPlateau缩小学习率、Xception/InceptionResNet-V2特征融合 项目成果:从Kaggle中获取999条数据,采用迁移学习及微调模型比较多个深度学习模型的准确率后,得到Xception模型最高仅为95.6%,对模型进行特征融合,模型准确率提升至98.4%
790Python机器学习
项目技术:随机森林、LSTM、SVR 项目成果:总计1825条数据20个特征,构建了4个新特征总计24个特征,绘制饼状图、箱形图等对特征选择并比较不同特征效果,随机森林、SVR采用R2、MAE、MSE评估指标,LSTM采用MAE、MSE评估指标,比较两个模型的结果后,最终采用LSTM模型,MAE与MSE分别为0.01416,0.0026
790Python机器学习
鉴于当前缺乏对大模型越狱攻击防御系统进行系统性研究的现状,本项目针对大模型越狱攻击的检测与防御进行了深入的探讨与技术实现。通过采集和分析多种数据集,包括越狱攻击检测数据、不良信息监测数据等,研究了其代表性与合理性,并提出了有效的防御模型架构与训练策略,旨在提升大模型在实际应用中的安全性与可靠性,为相关领域的研究与应用提供参考和支持。
830Python其他开发相关
https://github.com/leaf918/Robust-Partial-Fingerprint-Alignment Abstracts. Real-world fingerprint matching is important for a fingerprint verification system for mobile devices. Most mobile and embedded devices have a small fingerprint capture sensor that can capture ONLY a portion of the fingerprint image. In this work, we present a fast and robust method for matching fingerprints with neural networks. We use a 2-point parameterization that maps the two corners of a fingerprint to another fingerprint. We use the SOCOFing dataset to train our network. The fingerprint alignment network works without local features extracted from the fingerprint images. There is a comparison between FP21Net and traditional homography estimation based on ORB features.
1120TorchPython开发工具
项目描述:某外企内部AI智能监控系统无法访问,需要在redhat linux上重装此系统,厂家Vaidio不提供技术支持且厂家安装包只支持ubuntu系统。 主要职责:对厂家Vaidio安装包进行逆向分析,独立制作基于redhat linux的安装包,成功在客户服务器上完成安装。 项目成果:成功在客户服务器上安装AI智能监控系统,恢复原始监控数据,为客户节省成本3万元。
1100K8SVaidio
tijap-gpt开源项目
1. 基于Transformer架构,复现GPT-2(124M参数)​​+FP8混合精度 2. 训练数据是HuggingFaceFW/fineweb-edu中的sample-10BT 3. GPU租用的是智星云,GeForce RTX 4090 (24G),系统Ubuntu,单机4卡 4. 开发工具VS Code 5. 相关版本如下:CUDA Version: 12.4, Driver Version: 550.127.05, torch 2.5.0, triton 3.1.0
910Pythonai
谣言检测开源项目
RumourDetectClass:基于 RoBERTa 的自动文本谣言检测工具​​ ​​项目概要:​​ RumourDetectClass 是一个专为识别社交媒体和网络文本中潜在谣言而设计的实用工具类。其核心采用由 Cardiff University NLP 团队开发的预训练语言模型 cardiffnlp/twitter-roberta-base(RoBERTa 架构),该模型在海量推特数据上进行预训练,并针对谣言检测任务进行了特定优化,具备优秀的上下文理解和语义特征捕捉能力。 ​​核心功能:​​ 该工具类提供了一个简洁有效的文本分类接口(classify.py)。用户只需按照项目文档指引,向该接口传入待检测的文本字符串 [text],工具即可利用预训练模型进行深层语义分析。输出结果为简明易读的整数值 [int]:通常 0 代表“非谣言”(真实或常规信息),1 代表“疑似谣言”(需要进一步核查)。 ​​核心优势与特点:​​ ​​先进模型基础:​​ 直接利用 Twitter 领域顶尖的预训练模型 twitter-roberta-base,起点高、泛化能力强。 ​​开箱即用:​​ 只需简单调用(classify.py),无需用户深入了解模型细节即可获得初步判断。 ​​高效简洁:​​ 输入输出格式 (文本 -> 整数) 极其清晰,便于集成到其他自动化流程或应用程序中。 ​​针对性优化:​​ 模型底层特别针对推特(即类似社交媒体)文本风格和谣言检测任务进行了训练,相较于通用模型更具优势。 ​​使用场景:​​ 本工具非常适合需要快速筛检社交媒体信息流、用户评论、新闻片段或在线讨论,以初步标识高风险谣言的平台开发者、内容审核人员或信息研究分析人员,作为信息真实性辅助判断的第一步。
2480Pythonclassification
多模态智能体开源项目
本项目利用streamlit和fastmcp以及autogen等框架实现了通用智能体的构建,一些常用的功能如下: 1.基于聊天的界面 —— 由大型语言模型 (Gemini-2.5-Flash) 驱动 2.文件操作 —— 在容器内安全地读取、写入并浏览本地文件 3.YouTube 播放器 —— 内置搜索并在线播放视频,无需离开应用 4.图像生成 —— 根据文本提示创作图片并立刻下载 5.网页搜索 —— 使用 playwright 搜索互联网以获取信息 6.GoogleMap —— 通过 Google Map API 查询并获取地图信息 7.数据分析 —— 代理可用 pandas 和 matplotlib 绘制图表、表格 8.视频抓取 —— 按需求从指定网站抓取视频 9.虚拟货币 —— 调用 CoinCapMarket API 获取虚拟货币数据 10.定时任务 —— 可以创建定时搜索分析任务或者定时提醒的任务 11.可扩展工具 —— 仅用一个 Python 装饰器即可添加自定义工具
1070Python开源问答系统
针对自动驾驶场景对YOLOv7的网络架构和参数进行了专项优化。在Backbone部分引入ECA与CBAM,强化多尺度特征融合能力;将Neck层的PAN结构改进为双向特征金字塔(BiFPN),提升小目标检测鲁棒性。调整了锚框尺寸分布,新增针对车辆侧面和锥形桶的细粒度锚点。训练策略上采用余弦退火学习率+EMA权重平滑,并引入动态困难样本挖掘机制。
1100Torch自动驾驶
1.本项目主要解决算法项目重复开发训练推理测试代码的问题; 2.框架集成了算法研发的超参数设置、训练、推理、测试、可视化代码; 3.算法工程师只用设计对应的神经网络结构,并将网络结构代码添加到models文件夹下,设置好训练、推理和测试的超参数,就可以开始算法研发流程; 4.本框架还集成了断点续训功能,方便算法优化调试。
840Python人工智能
当前共34个项目more
×
寻找源码
源码描述
联系方式
提交