漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-08-31 talkingdev

语音识别技术新应用:用简短独特单词替代姓名预订团体餐桌,社交聚会效率提升新方案

近日,Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词(如'Sunfish'或'Maple')替代个人姓名进行登记。该方法通过提前...

Read More
2025-08-19 talkingdev

开源|Whispering:本地优先、数据透明的语音转文本工具

Whispering是一款基于开源协议的语音转文本(Speech-to-Text)应用程序,其核心设计理念强调“本地优先”和“数据透明化”。该工具允许用户通过快捷键快速启动语音转录,并支持自主选择云端或本地计算资源进行处理,无需...

Read More
2025-06-17 talkingdev

Retellio:用AI重构销售通话情报的智能分析平台

Retellio作为新一代销售智能分析平台,通过AI技术实时解析销售通话内容,自动提取关键客户洞察,并以播客、新闻简报或Slack消息等多样化形式输出。该平台采用先进的自然语言处理(NLP)和语音识别技术,能够精准捕捉...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2024-09-19 talkingdev

Moshi:开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型,旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力,能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

Read More
2024-07-10 talkingdev

浏览器如何隔离内部音频和麦克风输入?

近日有网友发出问题:浏览器如何隔离内部音频和麦克风输入?对此,业内专家指出,浏览器为了保护用户的隐私,会采取一系列技术手段来隔离内部音频和麦克风输入,比如使用WebRTC API(Web Real-Time Communications A...

Read More
2024-07-09 talkingdev

SenseVoice开源:具有多重语音情感理解能力的基础模型

近日,GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力,包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解;口语语言识...

Read More
2024-04-30 talkingdev

Whisper-cli:可本地部署的开源语音识别系统

近日,Ruff的开发团队发布了一款名为Whisper cpp cli的全新语音识别系统,该系统已在GitHub Repo上开源。这是一款完全自主研发的语音转文字系统,基于Whisper技术构建。Ruff团队一直以创新技术和高品质服务闻名于业...

Read More
  1. Next Page