1、立项原因:传统配音/语音生成流程依赖人工录制与反复返工,成本高、交付慢,且缺少可复用的“声音资产”管理能力。项目目标是将“文本生成语音 + 声音克隆 + 历史管理”整合为一站式 Web 平台,实现快速出音、参数可控与资产沉淀。
2、行业场景:适用于内容生产与企业应用场景,例如短视频/播客/有声内容、课程配音、产品讲解、客服/通知播报、企业内部培训与素材制作等。平台通过对接第三方语音能力与云端存储,实现在线生成、管理与复用。
点击空白处退出提示
1、立项原因:传统配音/语音生成流程依赖人工录制与反复返工,成本高、交付慢,且缺少可复用的“声音资产”管理能力。项目目标是将“文本生成语音 + 声音克隆 + 历史管理”整合为一站式 Web 平台,实现快速出音、参数可控与资产沉淀。
2、行业场景:适用于内容生产与企业应用场景,例如短视频/播客/有声内容、课程配音、产品讲解、客服/通知播报、企业内部培训与素材制作等。平台通过对接第三方语音能力与云端存储,实现在线生成、管理与复用。
1、功能模块:
1)账号与会话:注册/登录/登出、会话校验与路由保护
2)企业登录:OA SSO 校验企业身份并完成自动登录
3)文本转语音(TTS):同步生成音频,支持语速/音量/音调等参数
4)长文本异步 TTS:创建任务、查询状态、下载结果
5)声音克隆:上传样本音频克隆声音,管理“我的声音”
6)历史记录:保存/查询/删除生成历史,支持播放与下载
2、主要功能描述:用户登录后可选择声音或使用已克隆声音输入文本生成语音;长文本可走异步任务;生成结果可保存到历史记录并随时播放/下载;平台提供声音列表与声音管理能力,形成可复用的声音资产。
1、“我”负责的任务:
1)整体方案设计与实现:页面交互、API 设计、数据库模型与仓储层封装
2)对接第三方能力:MiniMax 文本转语音/异步 TTS/声音克隆、文件上传与内容获取
3)鉴权与安全:JWT 会话、路由保护、中间件拦截;敏感信息环境变量化与开源安全清理
4)数据管理:声音、历史记录的增删查;统一接口返回结构与错误处理
2、技术栈与架构:
- Next.js(App Router)实现全栈一体:前端页面 + API Routes
- React + TypeScript 组织组件与状态管理
- MongoDB 持久化用户、声音、历史等数据
- Vercel Blob 存储与转发音频文件;Vercel 部署与运行
3、亮点与难点:
1)异步 TTS 任务链路:任务创建、状态轮询/查询、结果拉取与下载的端到端闭环
2)文件链路安全:仅允许受信任的 Blob URL 进入转发流程,避免不受控外链下载
3)企业登录链路:基于 OA SSO 的 Token 校验与自动登录,并将跳转入口与密钥全部环境变量化




评论