漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-01 talkingdev

开源|Handy:完全离线的开源语音转文字工具,支持跨平台与自定义快捷键

近期在GitHub上开源的Handy项目,是一款完全离线运行的跨平台语音转文字应用,其技术核心基于OpenAI的Whisper模型及NVIDIA的Parakeet模型实现本地化语音识别。这一设计突破了传统语音工具对云端服务的依赖,在隐私保...

Read More
2025-08-19 talkingdev

开源|Whispering:本地优先、数据透明的语音转文本工具

Whispering是一款基于开源协议的语音转文本(Speech-to-Text)应用程序,其核心设计理念强调“本地优先”和“数据透明化”。该工具允许用户通过快捷键快速启动语音转录,并支持自主选择云端或本地计算资源进行处理,无需...

Read More
2025-07-16 talkingdev

Mistral AI推出开源音频模型Voxtral,开启语音理解新纪元

Mistral AI近日发布了其首个开源音频模型套件Voxtral,标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本:24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模,可处理复杂语音...

Read More
2025-06-25 talkingdev

ElevenLabs推出个人AI语音助手11.ai,集成多平台工作流

人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手,该产品以其低延迟特性脱颖而出,并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP(多通道处理)集成技术,11.ai能够...

Read More
2025-05-21 talkingdev

Google Meet推出实时语音翻译功能,DeepMind音频语言模型助力跨语言交流

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能,该功能基于DeepMind开发的先进音频语言模型,能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换,还...

Read More
2025-05-14 talkingdev

HF推出Whisper极速转录服务,速度提升8倍

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点(Fast Whisper Endpoint)。这项创新技术通过优化模型架构和计算资源分配,实现了高达8倍的转录速度提升,为语音处理领域树立了新的...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2025-02-27 talkingdev

ElevenLabs推出高精度多语言转录模型Scribe,支持99种语言

ElevenLabs近日宣布推出其自主研发的转录模型Scribe,该模型支持99种语言,并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能,还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

Read More
  1. Next Page