开源语音合成模型Zonos TTS发布：支持多语言与实时生成

talkingdev • 2025-04-04

1383029 views

近日，开源社区迎来一款突破性的语音合成模型Zonos TTS，该模型基于Apache 2.0协议发布，具备语音生成与克隆能力。其核心技术亮点包括：1）支持多语言合成，打破传统单一语种限制；2）采用实时生成架构，延迟低于200毫秒；3）通过情感韵律建模实现富有表现力的语音输出。该模型采用非自回归神经网络架构，在LibriTTS测试集上达到4.2 MOS分，较传统Tacotron2提升23%。开发者可通过其API实现影视配音、虚拟人交互等场景的快速部署，目前已在GitHub获得超过2.4k星标。行业专家认为，这标志着开源语音技术进入可商用化新阶段。

核心要点

Apache 2.0协议开源的语音合成与克隆模型
突破性支持多语言实时生成与情感表达
非自回归架构实现4.2 MOS分的优质合成效果

开源语音合成模型Zonos TTS发布：支持多语言与实时生成

核心要点

Related posts