智能多模态视听内容解析与知识图谱自动生成引擎 (Intelligent Multi-modal Au

技术信息

语言技术
Python、Vue系统类型
Web行业分类
人工智能

作品详情

行业场景

企业级智能会议与知识沉淀 (Corporate Knowledge Management)：现代企业每天都会产生大量的跨国会议记录、产品评审会或高管宣讲会。传统的会议纪要不仅耗费大量行政人力，且容易遗漏逻辑脉络。系统可无缝接入企业内部流媒体，自动提取发言音频，通过 ASR 识别并利用大模型进行语义重构，最终输出一目了然的决策思维导图。将“阅后即焚”的会议录音，转化为企业可检索、可传承的核心知识资产。
内容创作者经济与自媒体运营 (Creator Economy)：针对 YouTube、Bilibili 等平台的内容创作者及 MCN 机构，长视频的“二次创作”与“图文转化”是刚需。系统不仅支持直接解析视频链接，更能精准提取全量字幕与核心论点，帮助运营人员快速将长视频拆解为小红书图文笔记、微信公众号文章框架或短视频脚本，实现“一次产出，多端分发”的矩阵化运营。

功能介绍

本项目突破了传统“语音转文字”的单一范畴，构建了一条从“非结构化音视频流”到“高维结构化知识”的端到端（End-to-End）全自动化流水线，核心涵盖以下五大模块：

1. 全场景媒体接管与智能解析 (Universal Media Parsing)
系统不仅支持本地音视频文件的高速上传处理，更内置强大的 URL 嗅探引擎。可深度解析主流流媒体平台链接，自动抓取最佳质量的音视频流，为后续的 AI 处理提供稳定、高质量的数据源。

2. 音轨分离与多尺度 ASR 识别 (Audio Extraction & ASR)
底层集成 FFmpeg 引擎进行高效音轨分离与降噪预处理。核心接入 Whisper 语音识别神经网络，支持动态加载不同量级模型（从 tiny 到 large-v2）。此外，系统具备“智能字幕抓取”机制，能优先解析视频内嵌字幕，大幅节省 GPU 算力并极速产出逐字稿。

3. LLM 驱动的深度语义重构 (LLM-Driven Summarization)
深度兼容 OpenAI API 规范的大语言模型（如 GPT-4o, DeepSeek）。通过高级提示词工程（Prompt Engineering）有效突破大模型上下文窗口限制，将动辄数万字的转录文本进行逻辑切片、去重与核心骨架提取，精准还原讲者的逻辑推演过程。

4. 动态思维导图生成与底层渲染 (Mindmap Rendering)
将大模型输出的非结构化摘要，严格转换为具备层级关系的树状数据结构。系统跳出传统的浏览器前端依赖，直接在后端底层渲染出高分辨率、排版精美的思维导图图片（PNG），支持一键下载与跨平台分享。

5. 数字资产与私有化目录管理 (Asset Management)
提供完整的个人空间管理功能。用户可创建自定义文件夹，对生成的导图、原始字幕及摘要记录进行分类归档。

项目实现

本项目基于 Python 3.12 + FastAPI 构建底层非阻塞异步框架，并全面引入新一代包管理器 uv，实现依赖的毫秒级解析与环境绝对隔离，确保服务的高性能与高可用性。

高解耦多模态流水线 (Decoupled Pipeline)：
创新性设计核心调度器，将“媒体下载、音轨分离、ASR 识别、LLM 摘要、图像渲染”五大差异化算力消耗环节，彻底解耦为可插拔的标准化组件。此设计支持本地与云端算力的灵活切换，为未来的分布式微服务改造奠定完美基础。

异步任务调度与并发控制 (Async Task Manager)：
针对音视频解析与大模型推理的重负载特性，独立自研轻量级内存态异步任务队列。前端提交链接后立即获取 Task ID，后台 Worker 异步执行全链路解析，彻底解决处理大文件时的接口超时（Timeout）痛点。

LLM 生态兼容与环境自适应 (Ecosystem Compatibility)：
系统底层原生兼容 OpenAI API 规范，并可通过 Base URL 无缝切换至 DeepSeek 等模型。针对不同网络环境，内置自适应机制（如 HF_ENDPOINT 镜像支持），确保 Whisper 语音模型在任何服务器环境下均能稳定加载与更新。

轻量化存储与容器化部署 (Lightweight Storage)：
摒弃笨重的关系型数据库，采用无状态的轻量级文件系统管理用户数据与数字资产。结合标准 RESTful API，使整套后端引擎能极易封装进 Docker 容器，支持一键私有化部署与云端弹性扩容。