语音交互的相关内容 - 漫话开发者

2026-02-13 talkingdev

Omnara：用手机或网页远程操控AI编程助手，实现跨设备无缝开发

Omnara推出了一款创新的移动与网页客户端，旨在彻底改变开发者与AI编程助手（如Claude Code和Codex）的交互方式。该平台允许用户通过手机或任何网页浏览器，远程控制运行在个人电脑上的AI编程会话，实现了真正的跨设...

2026-01-30 talkingdev

苹果公司近日完成了对以色列初创公司Q.ai的收购，此举旨在强化其在人工智能音频处理领域的技术储备。Q.ai专注于成像与机器学习技术，尤其在两大前沿方向拥有核心专长：一是实现设备对“耳语”等极低音量语音的精准识别...

2026-01-23 talkingdev

阿里云旗下通义千问团队正式宣布，其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平，集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

2026-01-09 talkingdev

近日，GitHub上开源了一个名为Sopro的轻量级文本转语音（TTS）模型，其核心亮点在于仅包含1.69亿参数，却实现了零样本语音克隆能力，并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布，迅速在技术社区引...

2025-12-18 talkingdev

埃隆·马斯克旗下的人工智能公司xAI近日宣布，将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

2025-11-26 talkingdev

近日，TEN框架在GitHub平台正式开源，这是一个专门为对话式语音AI智能体设计的开源开发框架。该框架的发布标志着语音交互AI领域迎来了重要的技术突破，为开发者提供了构建复杂语音对话系统的标准化工具集。TEN框架支...

2025-09-05 talkingdev

美国对话式人工智能技术公司Cerence近日在德克萨斯州联邦法院对苹果公司提起专利侵权诉讼，指控苹果的虚拟键盘功能和“Hey Siri”语音唤醒技术侵犯其多项核心专利。诉状显示，涉案专利涵盖智能输入预测、上下文感知文...

2025-08-31 talkingdev

近日，Reddit社区分享的一项创新方法展示了语音识别技术在日常生活场景中的巧妙应用。用户建议在预订团体餐桌时使用简短、易识别且拼写简单的独特单词（如'Sunfish'或'Maple'）替代个人姓名进行登记。该方法通过提前...