VoiceCloneTTS产品系统Vibe Coding

我要开发同款
fealtease2026年07月02日
5阅读

技术信息

语言技术
Python
系统类型
Windows
行业分类
人工智能音视频多媒体

作品详情

行业场景

在自媒体、视障辅助、有声书录制、视频配音、客服通知、企业培训等场景中,大量文字需要被快速朗读。传统 TTS 工具要么只能离线用机械音、要么只能用网页在线听、要么必须付费克隆声音。用户迫切需要一款"既能网页跑、也能直接双击 exe 桌面运行;既能用 150+ 微软神经网络音色开箱即用,又能用自己的声音一键克隆"的本地化 TTS 工具。VoiceCloneTTS 正是为解决这个"最后一公里"的使用门槛而设计。

功能介绍


VoiceCloneTTS 是一款面向个人创作者和办公用户的本地化文字转语音桌面软件,提供五种核心能力:
1) 粘贴朗读模式:把任意文本复制到剪贴板后,软件自动识别并朗读,可调节语速/音调/音量,播放即所得;
2) 截屏 OCR 模式:框选屏幕任意区域,自动识别中英文并朗读,解决"图片/视频里的文字念不出来"的痛点;
3) 150+ 内置音色:内置微软 Azure Neural TTS 的 150 多种中、英、日、韩、方言音色,按"女声/男声/童声/方言/明星模仿/小语种"六大类分类,支持试听和秒级切换;
4) 自定义声音克隆:基于 Coqui XTTS v2 引擎,上传 6-30 秒参考音频,即可生成专属音色并保存为模板,可复用;
5) 历史记录与系统状态:自动保存最近 50 条朗读结果,附带系统状态监控(CPU/内存/引擎状态),方便排查问题。
支持 Web 端(Gradio 6.19,跨设备访问)和 Windows 原生窗口(CustomTkinter 5.2,双击即用)两种使用形态。

项目实现

本人负责ai agent提示词编写完成软件开发,程序运行、维护完善、应用拓展。
后端采用模块化设计:tts_engine.py 统一封装 Edge TTS(在线、快速)和 XTTS v2(本地、克隆)两套引擎,对外暴露同一接口,并使用 MD5 缓存避免重复合成;ocr_capture.py 基于 EasyOCR(ch_sim + en)+ mss 实现毫秒级截屏识别;clipboard_monitor.py 通过 pyperclip + 后台线程实现剪贴板自动监听。 前端提供两套等价 UI:frontend.py(Gradio,深色玻璃拟态)面向跨设备/远程访问;gui_window.py(CustomTkinter,5 个 Tab 页 + 滑块调参)面向纯本地双击即用。打包层使用 PyInstaller --onefile --windowed 把整个 2.6 GB 运行时压成单一 exe,桌面用户双击即可启动,无需配置 Python 环境。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论