漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-01-31 talkingdev

开源|仅9M参数!开发者打造浏览器端普通话发音AI导师,实时纠正声调

近日,一位开发者为解决自身普通话声调学习的痛点,训练并开源了一个超轻量级的语音评估模型。该模型专门用于对普通话的发音和声调进行实时评分与纠正,为解决语言学习中“听不出自身错误”的普遍难题提供了技术方案。...

Read More
2025-12-18 talkingdev

xAI开放Grok语音代理API,成本仅为OpenAI Realtime API一半

埃隆·马斯克旗下的人工智能公司xAI近日宣布,将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

Read More
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-11-11 talkingdev

Meta推出全语种自动语音识别系统,支持超1600种语言

Meta近日发布了名为'全语种自动语音识别'(Omnilingual Automatic Speech Recognition)的AI模型套件,这项突破性技术将自动语音识别能力扩展到1600多种语言,覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

Read More
2025-10-28 talkingdev

Decart推出实时唇形同步API:打造会说话的虚拟数字人

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作,推出开源实时唇形同步API技术。该技术通过实时音频流输入,可生成精准同步的虚拟人像视频与语音输出,支持任意语音引擎与自定义角色配置。这项突破性技术...

Read More
2025-08-31 talkingdev

语音识别技术新应用:用简短独特单词替代姓名预订团体餐桌,社交聚会效率提升新方案

近日,Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词(如'Sunfish'或'Maple')替代个人姓名进行登记。该方法通过提前...

Read More
2025-07-16 talkingdev

Mistral AI推出开源音频模型Voxtral,开启语音理解新纪元

Mistral AI近日发布了其首个开源音频模型套件Voxtral,标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本:24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模,可处理复杂语音...

Read More
2025-07-08 talkingdev

🗣️ Rime推出极具个性的AI语音技术,引领人机交互新趋势

Rime公司近日推出了市场上最逼真、最具表现力的AI语音技术,能够创造出听起来像普通人而非机器人或配音演员的智能语音体验。这一技术不仅显著提升了用户体验,还为像达美乐这样的品牌带来了两位数的转化率增长。Rime...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page