漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-09 talkingdev

开源|Sopro TTS:仅1.69亿参数,支持零样本语音克隆的轻量级CPU端模型

近日,GitHub上开源了一个名为Sopro的轻量级文本转语音(TTS)模型,其核心亮点在于仅包含1.69亿参数,却实现了零样本语音克隆能力,并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布,迅速在技术社区引...

Read More
2025-12-18 talkingdev

开源|Chatterbox:支持情感控制与零样本语音克隆的SOTA开源TTS模型发布

近日,由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型,标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案,其核心亮点在于集成了多语言支持、精细化的情感...

Read More
2025-08-26 talkingdev

MIT与Plaid联合报告:AI诈骗或致2027年损失400亿美元

生成式AI正将金融欺诈推向工业化运作新阶段。最新研究显示,语音克隆仅需1小时YouTube素材和11美元订阅服务即可实现,合成身份欺诈已使银行年损60亿美元。传统防御机制难以应对AI驱动的自动化攻击,包括凭证填充攻击...

Read More
2025-05-06 talkingdev

[开源]VoiceStar文本转语音模型:零样本语音克隆与情感控制新突破

近日,GitHub上开源了一个名为VoiceStar的文本转语音(TTS)模型,该模型在零样本语音克隆和情感表达控制方面展现出显著优势。VoiceStar能够通过极少的样本数据实现高质量的语音克隆,这意味着用户只需提供几秒钟的...

Read More
2025-03-06 talkingdev

基于Qwen的Spark Text To Speech模型:支持情感提示的强大语音克隆技术

近日,GitHub上发布了一款名为Spark Text To Speech的语音克隆模型,该模型基于Qwen架构,能够通过文本输入生成高质量的语音。值得注意的是,该模型支持情感提示功能,用户可以通过输入情感指令来调整生成语音的情感...

Read More
2024-04-08 talkingdev

Rabbit携手ElevenLabs在设备上实现语音命令功能

Rabbit与ElevenLabs达成合作,将其语音命令技术整合到即将推出的r1设备中,通过低延迟模型提升人机交互的自然体验。首批r1设备将具备聊天机器人互动和双向翻译等功能,并计划于3月31日前发货。尽管ElevenLabs面临其...

Read More
2024-04-01 talkingdev

VoiceCraft项目发布:700M参数模型实现零样本语音克隆与合成

近期,一项名为VoiceCraft的开源项目在GitHub上引起了广泛关注。该项目通过一个强大的700M参数模型,实现了零样本(Zero shot)的语音克隆和语音合成功能。这意味着用户无需进行任何额外的训练,就能够利用该模型复...

Read More
  1. Next Page