语音技术的相关内容 - 漫话开发者

2026-02-17 talkingdev

开源|FreeFlow：对标Wispr Flow与Superwhisper的开源实时语音转写替代方案

近日，开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目，旨在为市场上流行的实时语音转写服务（如Wispr Flow、Superwhisper、Monologue等）提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...

2026-01-31 talkingdev

近日，一位开发者为解决自身普通话声调学习的痛点，训练并开源了一个超轻量级的语音评估模型。该模型专门用于对普通话的发音和声调进行实时评分与纠正，为解决语言学习中“听不出自身错误”的普遍难题提供了技术方案。...

2025-12-18 talkingdev

埃隆·马斯克旗下的人工智能公司xAI近日宣布，将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-11-11 talkingdev

Meta近日发布了名为'全语种自动语音识别'（Omnilingual Automatic Speech Recognition）的AI模型套件，这项突破性技术将自动语音识别能力扩展到1600多种语言，覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

2025-10-28 talkingdev

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作，推出开源实时唇形同步API技术。该技术通过实时音频流输入，可生成精准同步的虚拟人像视频与语音输出，支持任意语音引擎与自定义角色配置。这项突破性技术...

2025-08-31 talkingdev

近日，Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词（如'Sunfish'或'Maple'）替代个人姓名进行登记。该方法通过提前...

2025-07-16 talkingdev

Mistral AI近日发布了其首个开源音频模型套件Voxtral，标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本：24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模，可处理复杂语音...