基于深度学习的文本驱动生成数字人系统,包含语音合成(自动音频标注、自定义语料训练、多音字和特殊字符识别)、文本驱动图像人物肢体动作、语音驱动人物唇形和肢体动作(音频驱动图像\视频唇形和肢体动作)。使用到的技术:语音合成算法相关(TTS、Paddlespeech、Spleeter、Whisper)、音频驱动人物唇形和肢体动作(MuseTalk、SadTalker、Video-Retalking、Audio2photoreal、Vlogger)、文本驱动人物肢体动作(MuseV)。
点击空白处退出提示
评论