ASR 服务进入大模型 + 端云协同 + 垂直深耕的高增长期,长期刚需、空间广阔.从传统 Conformer/Whisper,升级为ASR+LLM 端到端一体化:支持长上下文、热词 / 专业术语自适应、说话人分离、情绪 / 意图识别、降噪 / 远场 / 方言 / 口音增强,中文普通话 CER(字错误率)已降至2% 以内,垂直场景(医疗、法律)优化后可达98%+ 准确率
点击空白处退出提示
ASR 服务进入大模型 + 端云协同 + 垂直深耕的高增长期,长期刚需、空间广阔.从传统 Conformer/Whisper,升级为ASR+LLM 端到端一体化:支持长上下文、热词 / 专业术语自适应、说话人分离、情绪 / 意图识别、降噪 / 远场 / 方言 / 口音增强,中文普通话 CER(字错误率)已降至2% 以内,垂直场景(医疗、法律)优化后可达98%+ 准确率
1. 上传与文件处理模块
交互方式:支持「点击上传」和「拖拽上传」两种方式,降低操作门槛
格式兼容性:支持主流音频格式:WAV、MP3、FLAC、M4A、AAC、OGG、WMA,覆盖绝大多数录音、音视频提取音频的场景
服务状态监控:顶部显示「服务就绪」状态 + API 地址(http://localhost:8001),明确后端服务可用性,方便本地部署调试
2. 配置与参数控制模块
语言选择:默认「自动检测」,可手动指定识别语言(图中未展开,通常支持中文、英文、多语种 / 方言)
后处理选项:提供「启用逆文本正则化(ITN)」开关:
作用:将识别出的口语化 / 数字文本标准化(如把「两千零六」转为「2006」、「百分之三十」转为「30%」),提升文本可读性
API 地址配置:支持自定义后端服务地址,适配本地部署、云端部署等不同环境
3. 识别执行与结果展示模块
一键识别:点击「开始识别」按钮触发后端 ASR 服务,流程简单直观
结果可视化:
展示识别耗时:总耗时0秒、音频处理耗时923ms,体现低延迟特性
完整输出识别文本:图中示例为桐城经开区党群服务中心的发言稿,完整还原了语音内容
标注源文件信息:显示上传的文件名「滑轨屏小人完整输出无标点.mp3」,方便溯源
二、核心技术特性
本地部署友好:默认 API 地址为localhost,说明支持私有化本地部署,满足数据不出境、隐私合规需求(适合政务、企业内部使用)
ASR 核心能力:
高准确率:完整还原长文本发言稿,无明显错漏,支持正式场合的语音转写
低延迟:近 1 分钟的发言稿仅需 923ms 处理,推理效率高
后处理优化:逆文本正则化提升文本实用性,适配办公、政务等正式场景
Web 化零门槛:纯浏览器访问,无需安装客户端,支持多终端(PC、平板)使用
基于pytorch和transformers封装了SenseVoice和qwen3-asr的服务,api接口和测试页面,用作本地语音转文字服务。SenseVoice非常快。qwen3-asr慢但是准确率高。




评论