开源语音合成模型Zonos TTS发布:支持多语言与实时生成
talkingdev • 2025-04-04
35918 views
近日,开源社区迎来一款突破性的语音合成模型Zonos TTS,该模型基于Apache 2.0协议发布,具备语音生成与克隆能力。其核心技术亮点包括:1)支持多语言合成,打破传统单一语种限制;2)采用实时生成架构,延迟低于200毫秒;3)通过情感韵律建模实现富有表现力的语音输出。该模型采用非自回归神经网络架构,在LibriTTS测试集上达到4.2 MOS分,较传统Tacotron2提升23%。开发者可通过其API实现影视配音、虚拟人交互等场景的快速部署,目前已在GitHub获得超过2.4k星标。行业专家认为,这标志着开源语音技术进入可商用化新阶段。