漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-03-11 talkingdev

开源|RCLI:完全本地的macOS语音AI助手,无需云端即可控制电脑与文档问答

近日,GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线,集成了语音识别(Speech-to-Text)...

Read More
2026-03-03 talkingdev

开源|从零打造亚500毫秒延迟语音助手:技术架构与关键洞察

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...

Read More
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-09 talkingdev

开源|Sopro TTS:仅1.69亿参数,支持零样本语音克隆的轻量级CPU端模型

近日,GitHub上开源了一个名为Sopro的轻量级文本转语音(TTS)模型,其核心亮点在于仅包含1.69亿参数,却实现了零样本语音克隆能力,并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布,迅速在技术社区引...

Read More
2025-12-18 talkingdev

开源|Chatterbox:支持情感控制与零样本语音克隆的SOTA开源TTS模型发布

近日,由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型,标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案,其核心亮点在于集成了多语言支持、精细化的情感...

Read More
2025-11-26 talkingdev

[开源]TEN框架开源:专为对话式语音AI智能体打造的全新开发平台

近日,TEN框架在GitHub平台正式开源,这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破,为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

Read More
2025-07-09 talkingdev

NotebookLLaMa:基于LlamaCloud的开源替代方案

NotebookLLaMa是一个完全开源的项目,旨在提供NotebookLM的替代方案。该项目利用LlamaCloud进行文档处理,结合OpenAI的内容生成能力和ElevenLabs的语音合成技术,构建了一个功能强大的知识管理平台。作为开源社区的...

Read More
2025-07-04 talkingdev

KyutaiTTS开源-支持流式传输与低延迟的TTS引擎

法国研究机构Kyutai Labs近日开源其文本转语音(TTS)系统Kyutai TTS,该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现,达到行业领先水平。系统创新性地提供单词级时间戳输出功能,英语和法语的字错误...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page