漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2025-12-18 talkingdev

开源|Chatterbox:支持情感控制与零样本语音克隆的SOTA开源TTS模型发布

近日,由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型,标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案,其核心亮点在于集成了多语言支持、精细化的情感...

Read More
2025-11-26 talkingdev

[开源]TEN框架开源:专为对话式语音AI智能体打造的全新开发平台

近日,TEN框架在GitHub平台正式开源,这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破,为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

Read More
2025-10-27 talkingdev

Meta发布PyTorch原生智能体AI开发栈,重塑自主人工智能基础设施

Meta公司最新推出基于PyTorch框架的原生智能体AI开发栈,该技术套件集成了内核开发、分布式系统与强化学习三大核心模块,标志着自主人工智能开发工具链的重大升级。作为完全开源的技术解决方案,该平台突破性地支持...

Read More
2025-07-07 talkingdev

Character.AI突破性技术:TalkingMachines实现实时音频驱动视频生成

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型,仅需单张静态图像和语音输入,即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

Read More
2025-05-19 talkingdev

[论文推荐]WavReward:基于音频语言模型的对话系统评估新方法

来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统,该系统基于音频语言模型,专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练,该数据集包含了大...

Read More
2025-05-13 talkingdev

[开源]LLMs在多轮对话中表现显著下降(GitHub仓库)

最新研究发现,大型语言模型(LLMs)在多轮对话任务中的表现存在显著缺陷。根据微软在GitHub上公开的研究项目数据显示,由于模型可靠性和早期错误假设问题,LLMs在多轮对话中的任务表现平均下降了39%。这一发现对当...

Read More
2025-05-06 talkingdev

[开源] 实时AI语音对话项目RealtimeVoiceChat:延迟低至500毫秒

GitHub上的开源项目RealtimeVoiceChat由开发者KoljaB推出,旨在实现与AI的自然语音对话,其延迟时间可控制在约500毫秒内,接近实时交互水平。该项目采用先进的语音识别和生成技术,结合高效的网络传输协议,显著提升...

Read More
  1. Next Page