漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-29 talkingdev

SpeechGPT:高质量语言和声音合成新能力

近日,研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型,该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型,通过对大量语言数据进行训练,使得模型能够预测下一...

Read More
2024-01-09 talkingdev

论文:基于级联扩散模型的文本驱动人体动作合成技术

近日,一种名为GUESS的框架被引入,用于从文本中创建人体动作。该框架将复杂的人体姿态简化为各个层次上的更抽象形式,从而使从文本合成动作更加简洁稳定。

Read More
2023-09-18 talkingdev

一键动图技术开源,点击即可看到你的图像动起来!

生成动态技术结合了现代和经典的人工智能技术,能够在静态图像中合成运动。更为重要的是,这种技术具有完全的交互性。用户只需要简单的点击操作,就可以看到自己的图像动起来,为静态的图像注入了生命力。这种技术的...

Read More
  1. Prev Page