语音处理的相关内容 - 漫话开发者

2025-11-26 talkingdev

[开源]TEN框架开源：专为对话式语音AI智能体打造的全新开发平台

近日，TEN框架在GitHub平台正式开源，这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破，为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

2025-10-01 talkingdev

近期在GitHub上开源的Handy项目，是一款完全离线运行的跨平台语音转文字应用，其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖，在隐私保...

2025-08-19 talkingdev

Whispering是一款基于开源协议的语音转文本（Speech-to-Text）应用程序，其核心设计理念强调“本地优先”和“数据透明化”。该工具允许用户通过快捷键快速启动语音转录，并支持自主选择云端或本地计算资源进行处理，无需...

2025-07-16 talkingdev

Mistral AI近日发布了其首个开源音频模型套件Voxtral，标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本：24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模，可处理复杂语音...

2025-06-25 talkingdev

人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手，该产品以其低延迟特性脱颖而出，并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP（多通道处理）集成技术，11.ai能够...

2025-05-21 talkingdev

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-05-14 talkingdev

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点（Fast Whisper Endpoint）。这项创新技术通过优化模型架构和计算资源分配，实现了高达8倍的转录速度提升，为语音处理领域树立了新的...

2025-03-17 talkingdev

最近，一项名为WSI的研究将Whisper自动语音识别（ASR）编码器重新应用于多语言说话人识别任务，通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时，表现优于现有主流模型如Pyann...