Hugging Face平台最新发布的SIFT-50M(Speech Instruction Fine-Tuning)数据集,是一个包含5000万样本的大规模语音指令微调数据集,专为语音-文本大语言模型(LLMs)的指令微调和预训练而设计。该数据集基于公开可...
Read More近日,开源社区迎来一款突破性的语音合成模型Zonos TTS,该模型基于Apache 2.0协议发布,具备语音生成与克隆能力。其核心技术亮点包括:1)支持多语言合成,打破传统单一语种限制;2)采用实时生成架构,延迟低于200...
Read More近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...
Read More近日,一款轻量级的自回归流式文本转语音模型在GitHub上发布。该模型仅包含3000万参数,能够与任何语言模型(LLM)结合,使其具备理解和生成语音的能力,以响应通用查询。这一技术的核心优势在于,它无需对底层模型...
Read More近日,GitHub上发布了一款名为Spark Text To Speech的语音克隆模型,该模型基于Qwen架构,能够通过文本输入生成高质量的语音。值得注意的是,该模型支持情感提示功能,用户可以通过输入情感指令来调整生成语音的情感...
Read MoreBark是一种文本转语音系统,它可以生成连贯、快速和超长的音频输出。现在,我们可以在Jupyter Notebook中使用Bark,将文本转换为语音文件,使其更加便捷。Bark使用深度神经网络作为其文本到语音模型,具有很高的准确...
Read More最近,一项名为HelixNet的新研究显示,如果微调Mistral基础架构的三个任务特定模型,一个用于生成,一个用于批判,最后一个用于再生,则整个系统的生成性能显着提高。该研究使用合成数据来调整这些模型。HelixNet的...
Read More