漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-10 talkingdev

谷歌Vids应用:重塑工作生产力的下一代视频工具

谷歌近日推出了一款名为Vids的创新应用,旨在为企业工作带来全新的协作式共享视频制作体验。这款应用的设计理念是让制作视频变得和制作幻灯片一样简单,无需视频制作经验。用户可以在应用内整理素材并进行编辑,最终...

Read More
2024-03-25 talkingdev

DeepGram推出Aura:实现低于250毫秒的低延迟文本转语音API

DeepGram公司近日推出了一项名为Aura的创新产品,这是一款文本转语音(TTS)API,其最引人注目的特性是拥有低于250毫秒的响应延迟时间。这一技术突破意味着用户可以在实时应用中获得更快的语音反馈,极大提升了交互...

Read More
2024-03-04 talkingdev

Rime发布新文本转语音模型,支持“嗯”的说话习惯

Rime推出了一款具有强大对话能力的新文本转语音模型。与以往的模型不同,这款模型可以包含“嗯”的说话习惯和逼真的停顿。

Read More
2024-02-15 talkingdev

亚马逊发布史上最大的文本转语音AI模型,拥有“新兴能力”

亚马逊人工智能公司发布了最新的文本转语音模型——Big Adaptive Steamable TTS with Emergent abilities(BASE TTS),该模型拥有980万个参数,并具有新兴特性,可以自然地讲述甚至是复杂的句子。该模型是当前最大的...

Read More
2024-02-09 talkingdev

Stability AI开发高保真度文本转语音模型,使用合成注释训练

这些文本转语音模型由Stability AI开发,可以通过精确的自然语言指令进行引导。由于没有适合生成的具有正确文本描述的大型数据集,因此其创作者合成注释了大量的语音语料库进行训练。这是注释,上字幕和训练生成模型...

Read More
2024-01-22 talkingdev

儿童故事朗读工具:Tiny Narrations开源

Tiny Narrations是一个基于最受欢迎的Tiny Stories数据集的文本转语音版本。它使用SF Compute H100集群上的XTTS2。这个系统可以将短小精悍的故事转化为音频文件,方便用户在不同场景下收听。这个系统的优点是使用了...

Read More
2024-01-22 talkingdev

WhisperSpeech: 倒置Whisper技术实现的文本转语音系统

WhisperSpeech是一种倒置Whisper技术实现的文本转语音系统。该系统目前仅在英语LibreLight数据集上进行了训练,但未来的版本将面向多种语言。在该仓库中提供了合成语音的示例。

Read More
2024-01-21 talkingdev

自动化流程Agent让博客转视频播客

Nathan Lambert最近发布了Interconnect Tools,它允许您使用文本转语音、图像合成和整个工作流程自动化他的多模式博客流程。它允许创作者专注于写作,而工具将事物格式化为易于消费的媒体,以便他们的受众。此工具可...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page