语音交互的相关内容 - 漫话开发者

2025-08-07 talkingdev

开源|ElevenLabs发布React Native SDK，快速集成交互式语音代理

ElevenLabs近日发布了针对React Native的Conversational AI SDK，该工具允许开发者在React Native应用中快速集成高度定制化的交互式语音代理。这一SDK的推出将显著降低语音交互功能的开发门槛，开发者只需满足React...

2025-07-28 talkingdev

GitHub项目AgenticSeek推出了一款完全本地运行的AI助手，具备语音交互、自主网页浏览、代码编写及任务规划能力。该项目定位为Manus AI的开源替代方案，强调隐私性与独立性——无需依赖云端API或支付高额月费，仅需电力...

2025-07-26 talkingdev

中国宇树科技(Unitree Robotics)近日推出革命性产品R1人形机器人，以5900美元（约合人民币4.2万元）的定价震撼业界，创下同类产品最低售价记录。这款重25公斤的机器人搭载先进的多模态人工智能系统，能够实现环境感...

2025-07-16 talkingdev

Mistral AI近日发布了其首个开源音频模型套件Voxtral，标志着开源语音理解技术迈入新阶段。该套件包含两个关键版本：24B参数的大规模应用模型和3B参数的边缘计算优化版本。24B模型凭借庞大参数规模，可处理复杂语音...

2025-07-16 talkingdev

KDE社区宣布其电视操作系统项目Plasma Bigscreen在沉寂多时后迎来重大更新，新版界面全面重构，优化了整体Shell层的用户体验。作为开源生态中罕见的电视端解决方案，该项目采用Qt框架开发，支持硬件加速解码和语音交...

2025-07-04 talkingdev

法国研究机构Kyutai Labs近日开源其文本转语音（TTS）系统Kyutai TTS，该技术凭借L40S GPU实现32请求并行处理时仅350毫秒的延迟表现，达到行业领先水平。系统创新性地提供单词级时间戳输出功能，英语和法语的字错误...

2025-07-03 talkingdev

谷歌最新发布的Gemini 2.5模型在机器人技术和具身智能领域实现了重要突破。该模型通过增强的编码能力、推理能力和多模态处理能力，特别是基于空间理解的技术创新，为开发者提供了强大的工具。开发者可利用Gemini 2.5...

2025-06-25 talkingdev

人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手，该产品以其低延迟特性脱颖而出，并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP（多通道处理）集成技术，11.ai能够...