语音交互技术的相关内容 - 漫话开发者

2025-05-06 talkingdev

[开源] 实时AI语音对话项目RealtimeVoiceChat：延迟低至500毫秒

GitHub上的开源项目RealtimeVoiceChat由开发者KoljaB推出，旨在实现与AI的自然语音对话，其延迟时间可控制在约500毫秒内，接近实时交互水平。该项目采用先进的语音识别和生成技术，结合高效的网络传输协议，显著提升...

2025-03-26 talkingdev

OpenAI近日发布了其最新一代音频模型，其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声，标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...

2025-03-18 talkingdev

MMS-LLaMA是一款高效的多模态语音大语言模型框架，专注于自动视觉语音识别（AVSR），在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据，提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

2024-01-29 talkingdev

近日，研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型，该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型，通过对大量语言数据进行训练，使得模型能够预测下一...