1、语音流量入口(pv 20亿+),同客户端是 http 协议进行交互,主要模块包括 proxy 和 controller、tts 引擎、文本服务。内部模块是通过 rpc 协议来进行通信。架构层面(proxy + controller),主要功能是进行集群管理和导流,有一些还有一些缓存的逻辑,最近主要实现了包括本地缓存、内存级 lru 缓存,以及 redis 缓存的多级缓存策略,并且基于发音人做同集群下的发音人导流,由于复杂的缓存机制,会在时间纬度上进行打散进行操作。
语音合成服务业务层主要分为前端和后端,考虑到前后端服务资源使用不耦合,以及便于上线和维护方面的原因,把两个模
块拆分成两个服务各自维护,拆分后后端服务单机 qps 提升。前端部分主要负责文本服务架构维护,以及前端内核功能开发。
开发切句逻辑,裁剪链路,从组件和模块纬度优化加载、上线资源,单机 qps 提升,降低首包响应时间,提升上线效率。增加
长文本合成能力,以及内核重构,支持粤语、日语等多语种能力。后端部分主要是修复引擎 badcase和 bug,subrnn 工程代码
开发以及自动化上线,配置派生沙盒,