TTS的相关内容 - 漫话开发者

2026-06-16 talkingdev

AI加速原型设计不敌工程化交付：专业工程师仍不可或缺

在AI驱动原型设计显著加速软件交付的当下，一篇来自技术作者Matt Sayar的洞察文章再次为行业敲响警钟：尽管借助Claude Code等工具，开发者可以快速从UI仓库克隆代码、添加功能并记录演示视频，但这些AI生成的原型距...

2026-05-12 talkingdev

在AI大模型推理成本与日俱增的背景下，测试时扩展（Test-Time Scaling）正成为提升模型性能的前沿方向之一。近日，来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架，旨在通过编码Agent在回放环境中迭...

2026-03-03 talkingdev

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目，其端到端平均延迟仅为约400毫秒（从用户停止说话到助手发出第一个音节）。这一性能指标在集成了完整的语音识别（STT）、大语言模型（LLM）和语音合成（...

2026-01-23 talkingdev

阿里云旗下通义千问团队正式宣布，其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平，集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

2026-01-09 talkingdev

近日，GitHub上开源了一个名为Sopro的轻量级文本转语音（TTS）模型，其核心亮点在于仅包含1.69亿参数，却实现了零样本语音克隆能力，并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布，迅速在技术社区引...

2025-12-18 talkingdev

近日，由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型，标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案，其核心亮点在于集成了多语言支持、精细化的情感...

2025-11-22 talkingdev

GitHub平台近日出现一款名为Video-Materials-AutoGEN-Workstation的开源项目，标志着AI视频创作工具进入全新发展阶段。该项目通过集成内容策划、AI文案生成、TTS批量配音、AI图片合成、ASR字幕提取及自由创作六大核...

2025-10-13 talkingdev

清华大学与斯坦福大学联合研究团队近日发布突破性研究成果ReasoningBank，该框架通过构建推理记忆系统解决长期困扰大语言模型智能体的历史经验复用难题。传统智能体在持续执行现实任务时，往往将每次交互视为独立事...