漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-01 talkingdev

NotebookLM音频播客现已支持超过50种语言

谷歌实验室最新宣布,其AI笔记工具NotebookLM的音频概述功能已扩展至50多种语言,标志着该技术在多语言支持方面取得重大突破。这一更新使得全球更多用户能够通过语音交互快速获取文档摘要,显著提升了知识管理效率。...

Read More
2025-03-26 talkingdev

OpenAI推出新一代音频模型Voice Engine

OpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...

Read More
2025-03-18 talkingdev

[开源] CSM语音模型在MLX上的高效运行

近日,Sesame发布了一款1B规模的对话语音生成模型,并在GitHub上开源了其Apple原生MLX版本。该版本专为在MacBook等苹果设备上高效运行而优化,展示了机器学习在移动设备上的应用潜力。MLX是苹果公司推出的机器学习框...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2024-07-01 talkingdev

DEX-TTS:一种新型富有表现力的文本转语音模型

DEX-TTS是一种全新的富有表现力的文本转语音(TTS)模型,它采用参考语音来改善风格表示和模型泛化。这种新型技术的出现,为语音技术领域开创了新的可能性。DEX-TTS模型通过参考语音,能够更准确地捕捉到语音风格的...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More
2024-05-14 talkingdev

Pipecat:构建语音及多模态对话Agent框架

Pipecat是一个构建语音和多模式对话代理的框架。这个框架使开发者能够更便捷地创建和管理语音交互系统。多模式对话代理则是指可以处理多种类型输入(如文字、语音、图像等)的人工智能系统。Pipecat不仅适用于创建语...

Read More
2024-03-29 talkingdev

Hume推出情感语音界面 引领人工智能新趋势

Hume公司近日发布了一项创新产品——情感语音界面(Empathic Voice Interface,简称EVI),这是首款集成了情感智能的对话式人工智能技术。EVI能够理解和模拟人类情感,通过语音交互提供更为自然、贴心的用户体验。这一...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page