Torch

Torch是一个开源的机器学习框架,最初由纽约大学团队开发并以Lua语言实现,因其灵活性和强大的张量计算能力在学术研究中广受欢迎。其核心设计以​​动态计算图​​为特色,支持交互式调试和直观的模型构建方式,尤其适合深度学习领域的快速原型设计和实验迭代。2017年,PyTorch作为Torch的Python版本正式发布,继承了Torch的灵活性与核心理念,同时依托Python丰富的科学生态(如NumPy)和更广泛的开发者社区,迅速成为主流。PyTorch通过​​自动微分(Autograd)​​、​​GPU加速张量运算​​以及​​模块化的神经网络构建接口(torch.nn)​​,为研究人员提供了极致的灵活性和控制力,其动态图机制使得模型调试和修改更为直观便捷。尽管后续版本增加了对生产部署的优化(如TorchScript),但其核心优势始终体现在研究和实验阶段的高效性上。PyTorch现已与TensorFlow并列成为深度学习领域最具影响力的框架之一,被广泛应用于学术研究、工业探索以及各类AI模型的原型开发。
Myolotrain开源项目
Myolotrain是一个可视化管理yolo视觉模型训练的系统,为计算机视觉任务提供了直观的图形界面。该平台集成了在线标注、数据集管理、模型管理、训练管理和目标检测功能,支持windows、linux、docker等多种部署方式,使用户能够轻松地训练和部署YOLOv8模型,支持CPU和GPU,使用t
761Flask人工智能
AI文生图开源项目
基于StableDiffusion开源接口构建的AI视觉创作平台,在交互与功能层面实现全链路优化:前端采用Vue框架打造直观流畅的操作界面,用户可轻松完成参数配置、模型选择与生成预览;模型应用支持双模式——既提供经过性能优化的系统预置模型,满足快速出图需求;也开放用户自定义训练通道,允许上传专属数据
1150Python人工智能
实时语音识别 (Real-time Speech Recognition): 能够捕捉麦克风输入,并将用户的语音实时、准确地转换为文本。 自然语言理解 (Natural Language Understanding - NLU): 分析转换后的文本,理解用户的意图和关键信息(例如指令、询问的对象、参数等)。 对话管理 (Dialogue Management): 在多轮交互中维护对话状态和上下文,使对话更加连贯自然。 任务执行与技能调用 (Task Execution & Skill Invocation): 根据理解的用户意图,执行相应的操作,例如: 信息查询: 获取天气预报、时间、百科知识、新闻等。 媒体控制: 播放/暂停音乐、调整音量。 简单助理任务: 设置提醒、创建待办事项。 语音合成 (Text-to-Speech - TTS): 将助手的文本回复通过 edge-tts 转换成清晰自然的语音进行播放。 Web 界面交互 (Web Interface Interaction): 提供一个用户友好的网页界面,可以: 显示语音识别的文本和助手的回复。 允许用户通过文本输入与助手交互。 (可能) 展示图片、链接等多媒体信息。 多模态反馈 (Multimodal Feedback): 结合语音、文本以及可能的视觉元素(在Web界面上)来呈现信息和交互结果。 图像分析(Image Analysis): 可以通过pygame.camera调用摄像头或者截图当前页面,并与llm互动获取想要的信息 剪切板提取(Clipboard Management): 可以通过pypercli获取剪切板中的文本内容并自动判断是否需要进行执行 上下文管理(Context management): 通过EnhancedConversationContext类管理对话记录,支持记住或者遗忘特定信息,根据相似度判断是否清除旧的上下文,能够根据对话历史生成更相关的回复 日志记录(Logging): 使用rich库美化日志输出,并将日志保存到文件中 网页搜索(Search): 使用DuckDuckGo搜索用户指定的内容,并返回搜索结果摘要
980Torch机器学习/深度学习
项目技术:数据增强(镜像反转、左右各旋转30度、增加噪点、MSRCR处理光线)、迁移学习、ReduceLROnPlateau缩小学习率、Xception/InceptionResNet-V2特征融合 项目成果:从Kaggle中获取999条数据,采用迁移学习及微调模型比较多个深度学习模型的准确率后,得到Xception模型最高仅为95.6%,对模型进行特征融合,模型准确率提升至98.4%
790Python机器学习
项目技术:随机森林、LSTM、SVR 项目成果:总计1825条数据20个特征,构建了4个新特征总计24个特征,绘制饼状图、箱形图等对特征选择并比较不同特征效果,随机森林、SVR采用R2、MAE、MSE评估指标,LSTM采用MAE、MSE评估指标,比较两个模型的结果后,最终采用LSTM模型,MAE与MSE分别为0.01416,0.0026
800Python机器学习
该科研项目提出并且通过实验证实了一种通过向Stable Diffusion模型增加一个基于CNN特征提取网络的人物形象编码器来实现让Stable Diffusion在生成模型未见过的形象时可以不需要额外训练或者微调主模型或者Lora模型。 文中提出了三种技术路线,最终在其中一种技术路线中成功实践并且在较少数据集上得出了有效的结果,证明了技术路线的可行性。 论文摘要: The current state-of-the-art Diffusion model has demonstrated excellent results in generating images. However, the images are monotonous and are mostly the result of the distribution of images of people in the training set, making it challenging to generate multiple images for a fixed number of individuals. This problem can often only be solved by fine-tuning the training of the model. This means that each individual/animated character image must be trained if it is to be drawn, and the hardware and cost of this training is often beyond the reach of the average user, who accounts for the largest number of people. To solve this problem, the Character Image Feature Encoder model proposed in this paper enables the user to use the process by simply providing a picture of the character to make the image of the character in the generated image match the expectation. In addition, various details can be adjusted during the process using prompts. Unlike traditional Image-to-Image models, the Character Image Feature Encoder extracts only the relevant image features, rather than information about the model's composition or movements. In addition, the Character Image Feature Encoder can be adapted to different models after training. The proposed model can be conveniently incorporated into the Stable Diffusion generation process without modifying the model's ontology or used in combination with Stable Diffusion as a joint model.
1980python人工智能
基于现在比较流行的ECAPA-TDNN神经网络进行改进,提取语音的声学特征并据此进行语种判别,实现了一个更加方便 高效的语种识别系统。 主要工作: 1、理解任务,阅读相关论文以了解语音相关的研究成果和技术,明确研究方法 2、准备合适的数据集,对数据集进行预处理,提取声学特征 3、深入理解 ECAPA-TDNN 模型并设计进行实验 4、分析模型的输出结果,根据模型与问题、数据的匹配性调整参数和训练策略 5、诊断问题、分析错误后积极与导师讨论,合力解决问题
2290深度学习人工智能
基于pytorch框架,编写深度残差神经网络以及实现蒙特卡洛树搜索,同时完成自我对弈代码,通过自我对弈获取训练集,不断迭代。深度残差神经网络包含两个输出,策略输出以及价值输出,这两者将会辅助蒙特卡洛树搜索通过不断训练以达到良好的棋力
3040深度学习阿尔法zero
当前共8个项目more
×
寻找源码
源码描述
联系方式
提交