1. 使用transformer模型,完成视频序列到文本序列的转换,可以用在监控视频的存档和视频理解上;
2. 主要编程语言为Python,为了方便展示,使用JavaScript语言编写了前段页面。
3. 本项目利用先进的Transformer模型,实现高效、精准的视频内容转文字功能。通过深度学习技术,自动识别视频中的语音对话,转换为文字文本,助力信息快速获取与整理。适用于会议记录、视频编辑等多场景,提升工作效率,让视频信息传递更便捷。
点击空白处退出提示
语言技术
深度学习、图像处理、机器视觉、自然语言处理、Torch演示地址
https://github.com/Johnzu-2019/S2VT-seq2seq-video-captioning-attention?tab=readme-ov-file
1. 使用transformer模型,完成视频序列到文本序列的转换,可以用在监控视频的存档和视频理解上;
2. 主要编程语言为Python,为了方便展示,使用JavaScript语言编写了前段页面。
3. 本项目利用先进的Transformer模型,实现高效、精准的视频内容转文字功能。通过深度学习技术,自动识别视频中的语音对话,转换为文字文本,助力信息快速获取与整理。适用于会议记录、视频编辑等多场景,提升工作效率,让视频信息传递更便捷。
评论