语音合成的相关内容 - 漫话开发者

2026-07-24 talkingdev

微软发布MAI-Image-2.5-Pro与MAI-Voice-2-Flash：高保真图像生成和超低延迟语音模型正式公开预览

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-03-11 talkingdev

近日，GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线，集成了语音识别（Speech-to-Text）...

2026-03-03 talkingdev

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目，其端到端平均延迟仅为约400毫秒（从用户停止说话到助手发出第一个音节）。这一性能指标在集成了完整的语音识别（STT）、大语言模型（LLM）和语音合成（...

2026-01-23 talkingdev

阿里云旗下通义千问团队正式宣布，其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平，集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

2026-01-09 talkingdev

近日，GitHub上开源了一个名为Sopro的轻量级文本转语音（TTS）模型，其核心亮点在于仅包含1.69亿参数，却实现了零样本语音克隆能力，并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布，迅速在技术社区引...

2025-12-18 talkingdev

近日，由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型，标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案，其核心亮点在于集成了多语言支持、精细化的情感...

2025-11-26 talkingdev

近日，TEN框架在GitHub平台正式开源，这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破，为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

2025-07-09 talkingdev

NotebookLLaMa是一个完全开源的项目，旨在提供NotebookLM的替代方案。该项目利用LlamaCloud进行文档处理，结合OpenAI的内容生成能力和ElevenLabs的语音合成技术，构建了一个功能强大的知识管理平台。作为开源社区的...