语音转文本的相关内容 - 漫话开发者

2024-09-18 talkingdev

Moshi：开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型，旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力，能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

2023-09-20 talkingdev

全球最强大的语音转文本(STT)模型Nova-2已经来临。相较于其他选项，Deepgram的Nova-2提供了下一级的准确度和极速的速度，使得语音AI功能的快速实现成为可能。如果你想了解更多信息或者开始使用，现在注册就可以获得2...

2023-08-24 talkingdev

Deepgram的创业计划为初创企业提供了高达10万美元的信用额度，以使用最强大的语音转文本API。这个计划包括对话分离、智能格式化、多语言等功能，初创企业可以立即申请。通过Deepgram的创业计划，开发者可以创建和启...

2023-08-23 talkingdev

近日，一个名为Whisper API的开源项目在GitHub上引起了广泛关注。该项目提供了一个自我托管的API，用于进行语音到文本的转录。这一切都是通过使用一个精心调整的Whisper自动语音识别模型来实现的。这个项目的出现将...

2023-05-30 talkingdev

Nvidia在2023年Computex展示了一项新的生成式AI技术，可以让人们用自己的声音与游戏角色进行对话。Nvidia Avatar Cloud Engine将在本地和云端运行，包括部署大型语言模型、语音转文本、文本转语音等工具。文章中提供...

2023-05-02 talkingdev

- Whisper现已在Jax上运行，能够在短短几秒钟内转录1小时的音频。 - 该模型本身已经是最强大的语音转文本系统之一，现在加上了惊人的速度，使用起来几乎是不费吹灰之力。 - 尽管仍有缺点，但这是社区取得的卓越成果...