asr

通过FreeSWITCH的mod_unimrcp模块集成语音识别(ASR)和语音合成(TTS)功能,可以实现复杂的语音交互应用。包括录音监听、语音识别、语音合成、不同类型的VAD(语音活动检测)定义、WebSocket连接ASR服务器以及libwebsockets库集成等方面。提供了灵活的数据传输方式,有助于构建高效、可扩展的语音交互系统。
10000C/C++tts
WhisperKit Transcription Quality Dataset: librispeech Short-form Audio (
770pytorchwhisper
项目介绍:智能客服语音机器人代替人工客服人员接电话,处理常规的下单、查件、催件、投诉、查时效运费等业务; 主要职责:负责整个产品的生命周期管理、实现0-1的设计以及后期的版本迭代; 主要的功能模块有:对话交互系统设计(业务需求、智能化需求)、智能打断、重复库、知识库、听不到、未知意图、转人工等模块、标签管理、话术以及录音管理、全局设定、报表系统等; 项目成果:项目自 2019 年 6 月上线之后,一直在进行服务; 机器人的解决率达到 75%左右;平稳接待两年的双 11,两年的年货节,以及疫情期间的高话务量, 极大的减轻了客服人员的工作负担,提升了企业的工作效率;
1530交互设计语音客服机器人
项目功能介绍: 1.社交软件风控,分为实时音频检测、聊天内容检测、风控策略自动化配置、人工标记处理、自动标记处理、智能提醒及智能打击功能。风控策略由运营和技术针对社交软件特性共同设计,包含涉政、涉黄、未成年管控、欺诈、语言暴力识别等,对违规用户做提醒、管控、封号等处理。 2.BC端用户交流质检,分为离线ASR、文字策略配置、自动化质检(智能策略配置、GPT识别)并进行合规性标记、人工标记审核功能。 涉及技术: 1.风控实时处理系统为kratos框架,实时处理部分使用rockermq进行通信,数据存储方面主要使用mongo、mysql、redis,离线数据会存储在odps做数据分析 2.质检系统使用python开发,ASR服务链包含音频上传、音频剪辑、语音识别,主要使用ffmpeg、openai-whisper或阿里云和腾讯云的相关识别接口,识别系统根据社交软件特性支持不同语音房、上麦场景配置,自定义策略通过文字正则、用户画像、谈话内容、时间要求上对用户进行行为分析,比如平台内部工作人员有没有一起打游戏聊天等,聊天内容是否有激励用户活跃和积极态度等。汇总分析结果给运营进行标注并根据结果规范内部工作,达成优化平台内部工作人员行为,优化用户体验的目的。
2700pythonASR
百度语音搜索,是语音技术、自然语言处理、智能搜索三方面技术的融合,以自然的交互方式,将用户所说内容更准确的识别,对用户需求更精准的理解,进而为用户提供更满意的结果。 本人在百度奥迪车盒项目中,担任语音组leader,负责将语音助手移植到奥迪车盒上,并协同地图、随心听等其他app团队开发,以向其提供语音能力控制地图和随心听等。 在移植过程中的难点,奥迪车盒硬件性能较低,语音数据传输有明显的延迟(2s以上),本人提出离在线ASR融合的方式,较好地解决了这一问题。
2000android语音助手
项目针对各种工程,比如水道工程,装修工程和果业建筑等。实现以下功能 1. 设计方案处理专业现场录音文件 2. 训练语音模型,讲录音转换为文本,包含行业专业词汇 3. 在文本中提取实体属性关系结构图 项目中使用到的技术栈为 ASR 模型,例如 OpenAI Whisper, BERT, Meta MMS
1270MMS
项目主要是针对企业用于电话机器人外呼,协呼、呼入等功能,包括了智能客服,基于TTS和ASR打造的AI机器人代替人工坐席打电话,基于SpringBoot技术,使用了springcloud的架构,基于freeswitch软交换实现基础电话功能,通过NLP技术实时跟客户对话,完美替代人工呼入呼出的繁琐劳动。 本人主要工作是通讯开发,熟练使用freeswich、sip协议,对接阿里ASR和TTS,实现电话机器人的实时对话和控制。 工作中突破了单服务器并发不超过200的瓶颈,目前最大在线并发7000路稳定运行。
2750电话
当前共7个项目more
×
寻找源码
源码描述
联系方式
提交