虚拟助手的相关内容 - 漫话开发者

2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源：支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布，其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平，集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

2025-12-18 talkingdev

近日，由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型，标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案，其核心亮点在于集成了多语言支持、精细化的情感...

2025-11-26 talkingdev

近日，TEN框架在GitHub平台正式开源，这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破，为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

2025-10-27 talkingdev

Meta公司最新推出基于PyTorch框架的原生智能体AI开发栈，该技术套件集成了内核开发、分布式系统与强化学习三大核心模块，标志着自主人工智能开发工具链的重大升级。作为完全开源的技术解决方案，该平台突破性地支持...

2025-07-07 talkingdev

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型，仅需单张静态图像和语音输入，即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

2025-05-19 talkingdev

来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统，该系统基于音频语言模型，专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练，该数据集包含了大...

2025-05-13 talkingdev

最新研究发现，大型语言模型（LLMs）在多轮对话任务中的表现存在显著缺陷。根据微软在GitHub上公开的研究项目数据显示，由于模型可靠性和早期错误假设问题，LLMs在多轮对话中的任务表现平均下降了39%。这一发现对当...

2025-05-06 talkingdev

GitHub上的开源项目RealtimeVoiceChat由开发者KoljaB推出，旨在实现与AI的自然语音对话，其延迟时间可控制在约500毫秒内，接近实时交互水平。该项目采用先进的语音识别和生成技术，结合高效的网络传输协议，显著提升...