1、立项原因:空军某飞行员学院对于某机型亟需一套领航员模拟训练系统,其中有需求为AI飞行员接收到领航员指令并进行相关操作的场景,需要一套对领航员语音口令进行识别并转为相关文字,进行播报、回复和模拟相关飞行员操作的软件系统;
2、行业背景:飞行模拟器相关专业,AI大模型语音识别技术、基于Qt框架的录音和播放技术。
点击空白处退出提示
1、立项原因:空军某飞行员学院对于某机型亟需一套领航员模拟训练系统,其中有需求为AI飞行员接收到领航员指令并进行相关操作的场景,需要一套对领航员语音口令进行识别并转为相关文字,进行播报、回复和模拟相关飞行员操作的软件系统;
2、行业背景:飞行模拟器相关专业,AI大模型语音识别技术、基于Qt框架的录音和播放技术。
1、功能模块:语音输入、音频流传输、语音识别、文字转语音输出
2、功能描述:语音输入端可以是PC,也可以是支持部署Qt开发环境或者软件的设备,生成的音频流数据通过socket传输到语音识别服务器,服务器最好是带有英伟达显卡的Windows操作系统主机,可大大提高识别效率和准确性,服务器将识别出的文字通过socket转回客户端,客户端做出相应反应如播报或回应相对指令,完成闭环。
1、本人负责语音录入、语音识别和语音播报;
2、项目主要使用了开源Whisper语音识别大模型、Qt框架下的语音驶入输出模块等,使用C/C++语言,GPU加速需要CUDA支持和英伟达显卡,难点在于如何将其原生态开源项目中的识别语音文件转换为识别实时音频流数据。



评论