MindAudio 语音领域开源一体化工具包开源项目

我要开发同款
匿名用户2023年04月06日
93阅读

技术信息

开源地址
https://gitee.com/mindspore-lab/mindaudio
授权协议
Apache-2.0

作品详情

MidAudio是一个基于全场景AI框架 MidSpore 建立的,针对语音领域的开源一体化工具包。它提供语音领域的常用音频数据处理、音频特征提取以及音频数据增强等系列API,用户可便利地进行数据预处理;提供常用数据集以及SoTA模型,支持多个语音处理任务如语音识别、文字到语音生成、声纹识别、语音分离等。

主要特性丰富的数据处理API MidAudio提供了大量易用的数据处理API,用户可轻松实现音频数据分析,以及对音频算法任务中的数据进行特征提取和增强等。>>>importmidaudio#读取音频文件>>>test_data,sr=midaudio.read(data_path)#对原始数据进行变速>>>matrix=midaudio.speed_perturb(sigal,orig_freq=16000,speeds=[90,100])集成常用数据集,一键进行数据预处理 由于音频深度学习领域中数据集较多,处理过程较复杂,对新手不友好。MidAudio针对不同数据提供一套高效的数据处理方案,并支持用户根据需求进行定制化修改。>>>from..librispeechimportcreate_base_dataset,trai_data_pipelie#创建基础数据集>>>ds_trai=create_base_dataset(maifest_filepath,labels)#进行数据特征提取>>>ds_trai=trai_data_pipelie(ds_trai,batch_size=64)支持多种任务模型 MidAudio提供多种任务模型,如ASR任务中的DeepSpeech2,TTS任务中的WavGrad等,并提供预训练权重、训练策略和性能报告,帮助用户快速上手复现音频领域任务。灵活高效 MidAudio基于高效的深度学习框架MidSpore开发,具有自动并行和自动微分等特性,支持不同硬件平台上(CPU/GPU/Asced),同时支持效率优化的静态图模式和调试灵活的动态图模式。音频数据分析midaudio提供一系列常用的音频数据处理API,可便捷调用进行数据分析及特征提取。

>>>importmidaudio>>>importumpyasp>>>importmatplotlib.pyplotasplt#读取音频文件>>>test_data,sr=midaudio.read(data_path)#进行数据特征提取>>>_fft=512>>>matrix=midaudio.stft(test_data,_fft=_fft)>>>magitude,_=midaudio.magphase(matrix,1)#画图展示>>>x=[iforiirage(0,256*750,256)]>>>f=[i/_fft*srforiirage(0,it(_fft/2+1))]>>>plt.pcolormesh(x,f,magitude,shadig='gouraud',vmi=0,vmax=p.percetile(magitude,98))>>>plt.title('STFTMagitude')>>>plt.ylabel('Frequecy[Hz]')>>>plt.xlabel('Time[sec]')>>>plt.show()结果展示:

 

功能介绍

MindAudio是一个基于全场景 AI 框架 MindSpore 建立的,针对语音领域的开源一体化工具包。它提供语音领域的常用音频数据处理、音频特征提取以及音频数据增强等系列API,用户可便利...

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论