漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-26 talkingdev

OpenAI推出新一代音频模型Voice Engine

OpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2025-03-06 talkingdev

基于Qwen的Spark Text To Speech模型:支持情感提示的强大语音克隆技术

近日,GitHub上发布了一款名为Spark Text To Speech的语音克隆模型,该模型基于Qwen架构,能够通过文本输入生成高质量的语音。值得注意的是,该模型支持情感提示功能,用户可以通过输入情感指令来调整生成语音的情感...

Read More
2025-02-14 talkingdev

Meta发布MobileLLM:轻量级移动端语言模型新突破

近日,Meta在Hugging Face Hub上发布了其最新研发的MobileLLM模型检查点。这一系列模型专为移动设备优化,尽管体积小巧,但性能强大,能够在资源受限的环境中高效运行。MobileLLM的推出标志着Meta在移动端AI技术领域...

Read More
2024-12-16 talkingdev

小米智能家居设备集成Home Assistant平台

Home Assistant是开源的智能家居中心控制系统,最近宣布对小米智能家居设备的支持。这意味着用户可以通过Home Assistant来统一管理和控制他们的小米智能家居产品,包括智能灯泡、插座、传感器等。这一集成大大扩展了...

Read More
2024-06-26 talkingdev

利用RAG使本地LLM语音助手更快更具扩展性

研究人员已经发现,通过分类数据、预计算嵌入以及动态生成示例,可以使LLM语音助手更加高效和可扩展。他们利用RAG(Retrieval Augmented Generation)系统对语音助手进行优化,提高了其性能和扩展性。RAG是一种典型...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More
2024-05-28 talkingdev

苹果AI战略揭秘:Project Greymatter将革新关键应用

苹果的AI战略致力于通过实用的AI功能来提升其产品。核心项目之一是Project Greymatter,这是一套将集成到苹果关键应用中的AI工具。这些AI工具旨在提供更智能、更高效的用户体验,涵盖从语音助手到图像识别等多方面的...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page