漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-25 talkingdev

ElevenLabs推出个人AI语音助手11.ai,集成多平台工作流

人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手,该产品以其低延迟特性脱颖而出,并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP(多通道处理)集成技术,11.ai能够...

Read More
2025-05-14 talkingdev

Audible联手出版商扩展AI有声读物库,支持多语言合成

亚马逊旗下有声书服务平台Audible正与多家出版商合作,通过AI语音合成技术大幅扩充其有声读物资源库。该平台目前已集成超过100种AI语音,支持英语、西班牙语、法语和意大利语等多种语言的自动播讲。这一举措标志着数...

Read More
2025-05-07 talkingdev

AI如何量化英语口音强度?潜在空间技术揭示新突破

一项最新研究通过潜在空间技术,实现了AI对英语口音强度的量化分析。该技术由BoldVoice团队开发,通过深度神经网络在潜在空间中捕捉语音特征的微妙差异,从而精确评估非母语者的口音强度。研究在Hacker News引发热议...

Read More
2025-04-04 talkingdev

开源语音合成模型Zonos TTS发布:支持多语言与实时生成

近日,开源社区迎来一款突破性的语音合成模型Zonos TTS,该模型基于Apache 2.0协议发布,具备语音生成与克隆能力。其核心技术亮点包括:1)支持多语言合成,打破传统单一语种限制;2)采用实时生成架构,延迟低于200...

Read More
2025-04-01 talkingdev

[开源]Orpheus:无需GPU的轻量级文本转语音系统

开源项目Orpheus近期引发开发者社区关注,该项目通过C++实现了一个高效易用的文本转语音(TTS)系统。与Llama.cpp类似,其最大技术亮点在于完全脱离GPU依赖,仅需简单安装即可在普通计算设备上运行,显著降低了语音合...

Read More
2024-07-01 talkingdev

DEX-TTS:一种新型富有表现力的文本转语音模型

DEX-TTS是一种全新的富有表现力的文本转语音(TTS)模型,它采用参考语音来改善风格表示和模型泛化。这种新型技术的出现,为语音技术领域开创了新的可能性。DEX-TTS模型通过参考语音,能够更准确地捕捉到语音风格的...

Read More
2024-05-15 talkingdev

OpenAI的重大突破:GPT-4o的多模态能力

OpenAI的最新研究成果GPT-4o的多模态能力,整合了视觉和语音技术,预示着人工智能与世界互动方式的重大进步。这为人工智能在日常生活中的普遍存在铺平了道路。GPT-4o的多模态能力,不仅能够理解文本信息,还能够理解...

Read More
2024-04-10 talkingdev

谷歌Vids应用:重塑工作生产力的下一代视频工具

谷歌近日推出了一款名为Vids的创新应用,旨在为企业工作带来全新的协作式共享视频制作体验。这款应用的设计理念是让制作视频变得和制作幻灯片一样简单,无需视频制作经验。用户可以在应用内整理素材并进行编辑,最终...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page