微信扫码实时跟踪AI前沿
Meta Voice 是一个小而强大的文本到语音模型,支持生成和语音克隆。该模型基于深度神经网络和自回归模型,可用于多种应用场景,如语音合成、语音助手等。此外,Meta Voice 还支持多种语言,包括英语、中文、日语等。...
大多数音频生成技术使用扩散或自回归模型来生成声音。而这项研究并不使用多步骤或复杂的Transformer。相反,它使用了一个掩码语言模型来生成音频令牌。