漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-05 talkingdev

对话式AI公司Cerence在德州起诉苹果专利侵权,涉及虚拟键盘与“Hey Siri”技术

美国对话式人工智能技术公司Cerence近日在德克萨斯州联邦法院对苹果公司提起专利侵权诉讼,指控苹果的虚拟键盘功能和“Hey Siri”语音唤醒技术侵犯其多项核心专利。诉状显示,涉案专利涵盖智能输入预测、上下文感知文...

Read More
2025-08-31 talkingdev

语音识别技术新应用:用简短独特单词替代姓名预订团体餐桌,社交聚会效率提升新方案

近日,Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词(如'Sunfish'或'Maple')替代个人姓名进行登记。该方法通过提前...

Read More
2025-08-19 talkingdev

开源|Whispering:本地优先、数据透明的语音转文本工具

Whispering是一款基于开源协议的语音转文本(Speech-to-Text)应用程序,其核心设计理念强调“本地优先”和“数据透明化”。该工具允许用户通过快捷键快速启动语音转录,并支持自主选择云端或本地计算资源进行处理,无需...

Read More
2025-07-24 talkingdev

[论文推荐]Voxtral:多模态音频聊天模型新突破

Voxtral团队最新发布了Voxtral Mini和Voxtral Small两款多模态音频聊天模型,在语音理解和文本处理方面均达到业界领先水平。这两款模型能够同时处理语音音频和文本文档,在多项音频基准测试中取得了最先进的性能表现...

Read More
2025-07-07 talkingdev

Character.AI突破性技术:TalkingMachines实现实时音频驱动视频生成

Character.AI最新推出的TalkingMachines技术标志着实时视频生成领域的重大突破。该技术通过先进的音频驱动视频生成模型,仅需单张静态图像和语音输入,即可实时生成类似FaceTime的动态视频动画。这一创新结合了深度...

Read More
2025-06-17 talkingdev

Retellio:用AI重构销售通话情报的智能分析平台

Retellio作为新一代销售智能分析平台,通过AI技术实时解析销售通话内容,自动提取关键客户洞察,并以播客、新闻简报或Slack消息等多样化形式输出。该平台采用先进的自然语言处理(NLP)和语音识别技术,能够精准捕捉...

Read More
2025-05-14 talkingdev

HF推出Whisper极速转录服务,速度提升8倍

人工智能平台Hugging Face近日发布了一项突破性的语音转录服务——Whisper极速端点(Fast Whisper Endpoint)。这项创新技术通过优化模型架构和计算资源分配,实现了高达8倍的转录速度提升,为语音处理领域树立了新的...

Read More
2025-05-13 talkingdev

本地化构建专属Siri:无需云端,隐私无忧

近日,一篇题为《Build your own Siri. Locally. On-Device. No Cloud.》的技术文章引发广泛关注。文章详细介绍了如何在本地设备上构建类似Siri的语音助手,完全脱离云端服务,从而确保用户隐私安全。这一技术方案利...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page