VoiceCloneTTS_系统开发案例-程序员客栈

技术信息

作品详情

行业场景

在自媒体、视障辅助、有声书录制、视频配音、客服通知、企业培训等场景中，大量文字需要被快速朗读。传统 TTS 工具要么只能离线用机械音、要么只能用网页在线听、要么必须付费克隆声音。用户迫切需要一款"既能网页跑、也能直接双击 exe 桌面运行；既能用 150+ 微软神经网络音色开箱即用，又能用自己的声音一键克隆"的本地化 TTS 工具。VoiceCloneTTS 正是为解决这个"最后一公里"的使用门槛而设计。

功能介绍

VoiceCloneTTS 是一款面向个人创作者和办公用户的本地化文字转语音桌面软件，提供五种核心能力：
1) 粘贴朗读模式：把任意文本复制到剪贴板后，软件自动识别并朗读，可调节语速/音调/音量，播放即所得；
2) 截屏 OCR 模式：框选屏幕任意区域，自动识别中英文并朗读，解决"图片/视频里的文字念不出来"的痛点；
3) 150+ 内置音色：内置微软 Azure Neural TTS 的 150 多种中、英、日、韩、方言音色，按"女声/男声/童声/方言/明星模仿/小语种"六大类分类，支持试听和秒级切换；
4) 自定义声音克隆：基于 Coqui XTTS v2 引擎，上传 6-30 秒参考音频，即可生成专属音色并保存为模板，可复用；
5) 历史记录与系统状态：自动保存最近 50 条朗读结果，附带系统状态监控（CPU/内存/引擎状态），方便排查问题。
支持 Web 端（Gradio 6.19，跨设备访问）和 Windows 原生窗口（CustomTkinter 5.2，双击即用）两种使用形态。

项目实现

本人负责ai agent提示词编写完成软件开发，程序运行、维护完善、应用拓展。
后端采用模块化设计：tts_engine.py 统一封装 Edge TTS（在线、快速）和 XTTS v2（本地、克隆）两套引擎，对外暴露同一接口，并使用 MD5 缓存避免重复合成；ocr_capture.py 基于 EasyOCR（ch_sim + en）+ mss 实现毫秒级截屏识别；clipboard_monitor.py 通过 pyperclip + 后台线程实现剪贴板自动监听。前端提供两套等价 UI：frontend.py（Gradio，深色玻璃拟态）面向跨设备/远程访问；gui_window.py（CustomTkinter，5 个 Tab 页 + 滑块调参）面向纯本地双击即用。打包层使用 PyInstaller --onefile --windowed 把整个 2.6 GB 运行时压成单一 exe，桌面用户双击即可启动，无需配置 Python 环境。