ASR语音识别 + LLM智能处理系统产品系统

我要开发同款
proginn18025088162026年02月20日
26阅读

技术信息

语言技术
PythonJavaScript
系统类型
Web
行业分类
人工智能

作品详情

行业场景

本项目旨在解决企业在语音会议记录、施工巡检语音报告等场景下,语音转文字精度不足、缺乏智能总结和分析能力的问题。项目面向建筑施工安全巡检、企业会议纪要生成等行业场景,通过将ASR语音识别与LLM大语言模型结合,实现语音内容的自动识别、智能纠错、结构化总结和说话人分离,大幅提升语音数据的处理效率和利用价值。系统支持多种ASR引擎(FunASR Nano、FireRedASR)的灵活切换,并集成降噪预处理模块,适用于嘈杂环境下的语音识别需求。

功能介绍

1. ASR核心服务:基于FunASR Nano和FireRedASR模型搭建FastAPI语音识别服务,支持文件上传、Base64、二进制流等多种音频输入方式,集成VAD端点检测(fsmn-vad)和标点恢复(ct-punc),实现并发控制和异步处理机制。
2. ASR+LLM语音识别Web页面:实现SSE流式输出,实时返回识别和处理结果;AI复述修正功能调用LLM对ASR文本进行纠错;修正和总结任务并行执行提升处理效率;前端支持拖拽上传音频,实时流式展示ASR分段进度。
3. 多Tab结果展示:分Tab展示ASR原文、AI修正结果、总结(源码/可视化)、说话人分离结果,集成Markdown渲染支持总结内容可视化展示,实现think标签过滤处理推理模型输出。
4. LLM性能测试模块:完成Qwen3-30B-A3B、Qwen3-Next-80B-A3B等多个模型的性能压测,覆盖精度测试(GPQA)、吞吐量测试和资源占用情况测试。
5. 说话人识别与问题修复:定位FunASR cam++模型AssertionError问题根因(VAD段数与标签数不匹配),实现VAD参数优化和自动降级重试机制。
6. 降噪预处理模块:部署噪声模型并整合到系统,支持降噪强度可调,在噪声环境下识别效果显著优于无降噪场景。

项目实现

我负责整个系统的全栈开发,包括后端ASR服务搭建、前端页面开发、LLM集成与性能调优。技术栈方面,后端使用Python + FastAPI构建RESTful API和SSE流式接口,ASR引擎采用FunASR Nano和FireRedASR-AED-L两套方案并支持灵活切换,LLM采用Qwen3系列模型(30B/80B),降噪模块基于独立的噪声过滤模型实现。前端使用HTML5 + JavaScript + CSS开发,集成Markdown渲染库实现总结内容可视化。技术亮点包括:SSE流式传输实现实时分段展示、LLM修正与总结并行执行提升效率、VAD参数自动降级重试解决说话人识别兼容性问题、FireRedASR替代方案在识别精度上的显著提升、以及降噪预处理模块在嘈杂环境下的效果优化。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论