漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-26 talkingdev

OpenAI推出新一代音频模型Voice Engine

OpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...

Read More
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2024-11-19 talkingdev

手势跟踪技术革新:无需物理鼠标即可控制电脑

随着手势识别技术的进步,一项名为“手势跟踪鼠标输入”的新技术正在引起业界的关注。该技术允许用户通过简单的手势来控制鼠标指针,彻底摆脱了物理鼠标的束缚。通过先进的传感器和算法,系统能够精确捕捉用户手部的动...

Read More
2024-03-26 talkingdev

Character Voice:让每个角色都有声音

Character Voice是一套功能,使用户能够在一对一聊天中听到角色对他们说话,将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步,该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...

Read More
2024-02-27 talkingdev

GeneOH-改进后的手部-物体交互技术

GeneOH扩散技术是一种新的技术,它通过改正手部动作和与物体的关系中的错误来提高模型对物体的理解和交互。这种方法专注于使这些交互更加自然。

Read More
2024-01-29 talkingdev

SpeechGPT:高质量语言和声音合成新能力

近日,研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型,该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型,通过对大量语言数据进行训练,使得模型能够预测下一...

Read More
2024-01-09 talkingdev

论文:基于级联扩散模型的文本驱动人体动作合成技术

近日,一种名为GUESS的框架被引入,用于从文本中创建人体动作。该框架将复杂的人体姿态简化为各个层次上的更抽象形式,从而使从文本合成动作更加简洁稳定。

Read More
2023-09-18 talkingdev

一键动图技术开源,点击即可看到你的图像动起来!

生成动态技术结合了现代和经典的人工智能技术,能够在静态图像中合成运动。更为重要的是,这种技术具有完全的交互性。用户只需要简单的点击操作,就可以看到自己的图像动起来,为静态的图像注入了生命力。这种技术的...

Read More