漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2024-07-01 talkingdev

DEX-TTS:一种新型富有表现力的文本转语音模型

DEX-TTS是一种全新的富有表现力的文本转语音(TTS)模型,它采用参考语音来改善风格表示和模型泛化。这种新型技术的出现,为语音技术领域开创了新的可能性。DEX-TTS模型通过参考语音,能够更准确地捕捉到语音风格的...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More
2024-05-14 talkingdev

Pipecat:构建语音及多模态对话Agent框架

Pipecat是一个构建语音和多模式对话代理的框架。这个框架使开发者能够更便捷地创建和管理语音交互系统。多模式对话代理则是指可以处理多种类型输入(如文字、语音、图像等)的人工智能系统。Pipecat不仅适用于创建语...

Read More
2024-03-29 talkingdev

Hume推出情感语音界面 引领人工智能新趋势

Hume公司近日发布了一项创新产品——情感语音界面(Empathic Voice Interface,简称EVI),这是首款集成了情感智能的对话式人工智能技术。EVI能够理解和模拟人类情感,通过语音交互提供更为自然、贴心的用户体验。这一...

Read More
2024-03-14 talkingdev

探索GenAI界面的替代UX模式

本文敦促UX设计师在GenAI界面中创新超越Quick Actions和Multi-Turn模式,强调需要更直观、适应性更强的设计来适应人工智能的不断发展。强调用户赋权和上下文理解,重点介绍了有前途的替代UX模式,如拖放、语音交互和...

Read More
2024-01-29 talkingdev

SpeechGPT:高质量语言和声音合成新能力

近日,研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型,该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型,通过对大量语言数据进行训练,使得模型能够预测下一...

Read More
2024-01-16 talkingdev

Meta展示无缝语音克隆和翻译技术

Meta最近展示了一项新的技术,可以实现不同语言之间的语音克隆和翻译。该技术可以通过对一段语音进行分析和深度学习来实现。在语音克隆方面,该技术可以将一个人的语音克隆到另一个人身上,从而实现更加自然的语音交...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page