ASR语音纠错

我要开发同款
EchoLei2021年01月20日
420阅读

作品详情

项目选型:kenlm、ngram、hadoop、gpu、vim开发项目描述:本项目用于Breeno语音识别纠错。以垂直领域为数据来源,构建起了以流量包售前也售后为中心的客服问答系统,语料规模1亿。包含错误检测、候选召回、候选排序三个模块。技术负责:1、 数据预处理:停用词、语气词、数字、英文等处理;2、 语言模型构建:字符级别ngram语言模型搭建、词级别语言模型搭建;3、 错误检测:包括基于字典的错误检测、基于相似拼音的错误检测、基于字符级别的ngram 模型的错误检测,基于词级别的ngram模型的错误检测;4、 候选找回:主要是对应词典的候选召回;5、 候选排序:排序主要是通过模型分进行排序;6、 效果评估:主要看字错率。其他辅助包括句错率、字准确率、字召回率。7、 后期优化:分析bad case的错误来源,对bad case进行分类,可从错误检测、候选召回、候选排序三个模块解掉bad case;
查看全文
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论