漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-05 talkingdev

对话式AI公司Cerence在德州起诉苹果专利侵权,涉及虚拟键盘与“Hey Siri”技术

美国对话式人工智能技术公司Cerence近日在德克萨斯州联邦法院对苹果公司提起专利侵权诉讼,指控苹果的虚拟键盘功能和“Hey Siri”语音唤醒技术侵犯其多项核心专利。诉状显示,涉案专利涵盖智能输入预测、上下文感知文...

Read More
2025-08-31 talkingdev

语音识别技术新应用:用简短独特单词替代姓名预订团体餐桌,社交聚会效率提升新方案

近日,Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词(如'Sunfish'或'Maple')替代个人姓名进行登记。该方法通过提前...

Read More
2025-08-07 talkingdev

开源|ElevenLabs发布React Native SDK,快速集成交互式语音代理

ElevenLabs近日发布了针对React Native的Conversational AI SDK,该工具允许开发者在React Native应用中快速集成高度定制化的交互式语音代理。这一SDK的推出将显著降低语音交互功能的开发门槛,开发者只需满足React...

Read More
2025-07-28 talkingdev

AgenticSeek开源:完全本地的AI助手,无需API与云端依赖

GitHub项目AgenticSeek推出了一款完全本地运行的AI助手,具备语音交互、自主网页浏览、代码编写及任务规划能力。该项目定位为Manus AI的开源替代方案,强调隐私性与独立性——无需依赖云端API或支付高额月费,仅需电力...

Read More
2025-07-26 talkingdev

中国宇树科技发布R1人形机器人:搭载多模态AI,售价仅5900美元大幅降低行业门槛

中国宇树科技(Unitree Robotics)近日推出革命性产品R1人形机器人,以5900美元(约合人民币4.2万元)的定价震撼业界,创下同类产品最低售价记录。这款重25公斤的机器人搭载先进的多模态人工智能系统,能够实现环境感...

Read More
2025-07-16 talkingdev

Mistral AI推出开源音频模型Voxtral,开启语音理解新纪元

Mistral AI近日发布了其首个开源音频模型套件Voxtral,标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本:24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模,可处理复杂语音...

Read More
2025-07-16 talkingdev

KDE的Android TV替代方案Plasma Bigscreen重生,UI全面升级

KDE社区宣布其电视操作系统项目Plasma Bigscreen在沉寂多时后迎来重大更新,新版界面全面重构,优化了整体Shell层的用户体验。作为开源生态中罕见的电视端解决方案,该项目采用Qt框架开发,支持硬件加速解码和语音交...

Read More
2025-07-04 talkingdev

KyutaiTTS开源-支持流式传输与低延迟的TTS引擎

法国研究机构Kyutai Labs近日开源其文本转语音(TTS)系统Kyutai TTS,该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现,达到行业领先水平。系统创新性地提供单词级时间戳输出功能,英语和法语的字错误...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page