漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-11 talkingdev

开源|Meta发布Omnilingual ASR,支持1600+语言的语音识别技术

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统,这项突破性技术首次实现对全球1600余种语言的语音转文本支持,其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

Read More
2025-09-28 talkingdev

开源|Handy:基于Rust开发的免费开源跨平台语音转文本应用

近日,一款名为Handy的开源语音识别应用在技术社区引发关注。这款采用Rust语言编写的跨平台工具,实现了高效的实时语音转文本功能,其开源特性允许开发者自由查看和修改源代码。Handy支持Windows、macOS和Linux三大...

Read More
2025-08-31 talkingdev

语音识别技术新应用:用简短独特单词替代姓名预订团体餐桌,社交聚会效率提升新方案

近日,Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词(如'Sunfish'或'Maple')替代个人姓名进行登记。该方法通过提前...

Read More
2025-08-19 talkingdev

开源|Whispering:本地优先、数据透明的语音转文本工具

Whispering是一款基于开源协议的语音转文本(Speech-to-Text)应用程序,其核心设计理念强调“本地优先”和“数据透明化”。该工具允许用户通过快捷键快速启动语音转录,并支持自主选择云端或本地计算资源进行处理,无需...

Read More
2025-06-17 talkingdev

Retellio:用AI重构销售通话情报的智能分析平台

Retellio作为新一代销售智能分析平台,通过AI技术实时解析销售通话内容,自动提取关键客户洞察,并以播客、新闻简报或Slack消息等多样化形式输出。该平台采用先进的自然语言处理(NLP)和语音识别技术,能够精准捕捉...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2024-09-19 talkingdev

Moshi:开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型,旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力,能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

Read More
2024-07-10 talkingdev

浏览器如何隔离内部音频和麦克风输入?

近日有网友发出问题:浏览器如何隔离内部音频和麦克风输入?对此,业内专家指出,浏览器为了保护用户的隐私,会采取一系列技术手段来隔离内部音频和麦克风输入,比如使用WebRTC API(Web Real-Time Communications A...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page