ASR语音识别 + LLM智能处理系统_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

本项目旨在解决企业在语音会议记录、施工巡检语音报告等场景下，语音转文字精度不足、缺乏智能总结和分析能力的问题。项目面向建筑施工安全巡检、企业会议纪要生成等行业场景，通过将ASR语音识别与LLM大语言模型结合，实现语音内容的自动识别、智能纠错、结构化总结和说话人分离，大幅提升语音数据的处理效率和利用价值。系统支持多种ASR引擎（FunASR Nano、FireRedASR）的灵活切换，并集成降噪预处理模块，适用于嘈杂环境下的语音识别需求。

功能介绍

1. ASR核心服务：基于FunASR Nano和FireRedASR模型搭建FastAPI语音识别服务，支持文件上传、Base64、二进制流等多种音频输入方式，集成VAD端点检测（fsmn-vad）和标点恢复（ct-punc），实现并发控制和异步处理机制。
2. ASR+LLM语音识别Web页面：实现SSE流式输出，实时返回识别和处理结果；AI复述修正功能调用LLM对ASR文本进行纠错；修正和总结任务并行执行提升处理效率；前端支持拖拽上传音频，实时流式展示ASR分段进度。
3. 多Tab结果展示：分Tab展示ASR原文、AI修正结果、总结（源码/可视化）、说话人分离结果，集成Markdown渲染支持总结内容可视化展示，实现think标签过滤处理推理模型输出。
4. LLM性能测试模块：完成Qwen3-30B-A3B、Qwen3-Next-80B-A3B等多个模型的性能压测，覆盖精度测试（GPQA）、吞吐量测试和资源占用情况测试。
5. 说话人识别与问题修复：定位FunASR cam++模型AssertionError问题根因（VAD段数与标签数不匹配），实现VAD参数优化和自动降级重试机制。
6. 降噪预处理模块：部署噪声模型并整合到系统，支持降噪强度可调，在噪声环境下识别效果显著优于无降噪场景。

项目实现

我负责整个系统的全栈开发，包括后端ASR服务搭建、前端页面开发、LLM集成与性能调优。技术栈方面，后端使用Python + FastAPI构建RESTful API和SSE流式接口，ASR引擎采用FunASR Nano和FireRedASR-AED-L两套方案并支持灵活切换，LLM采用Qwen3系列模型（30B/80B），降噪模块基于独立的噪声过滤模型实现。前端使用HTML5 + JavaScript + CSS开发，集成Markdown渲染库实现总结内容可视化。技术亮点包括：SSE流式传输实现实时分段展示、LLM修正与总结并行执行提升效率、VAD参数自动降级重试解决说话人识别兼容性问题、FireRedASR替代方案在识别精度上的显著提升、以及降噪预处理模块在嘈杂环境下的效果优化。