语音交互的相关内容 - 漫话开发者

2026-05-11 talkingdev

OpenAI发布实时语音翻译构建指南，专为同声传译优化的GPT模型登场

OpenAI近日发布了一份工程指南，详细介绍了如何使用其最新优化的模型gpt-realtime-translate构建实时语音翻译系统。该模型专为同声传译场景设计，与传统的轮次语音交互不同，它能实现对语音流进行实时、连续的翻译处...

2026-05-08 talkingdev

在 AI 语音交互技术飞速发展的今天，实时通信协议的选择正成为影响系统性能与可靠性的关键瓶颈。一篇来自 moq.dev 的最新技术分析文章指出，广泛使用的 WebRTC 协议并非 AI 语音应用的理想选择。WebRTC 的设计初衷是...

2026-05-08 talkingdev

OpenAI近日在API中正式推出了一系列全新的实时音频模型，标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型：GPT-Realtime-2，专注于增强对话式推理能力，能够实现更自然、更具逻辑性的实时语音对话；G...

2026-05-05 talkingdev

OpenAI近日详细披露了其用于全球规模实时语音交互的低延迟基础设施架构。该架构基于重新设计的WebRTC协议，核心采用了分体中继（split relay）和收发器（transceiver）模型。通过将传统WebRTC的单一媒体传输路径拆解...

2026-04-08 talkingdev

近日，一个名为Clicky的开源项目在GitHub上发布，为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”，能够实时“看到”用户屏幕内容，并通过语音与用户交流，甚至能直接“指...

2026-03-03 talkingdev

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目，其端到端平均延迟仅为约400毫秒（从用户停止说话到助手发出第一个音节）。这一性能指标在集成了完整的语音识别（STT）、大语言模型（LLM）和语音合成（...

2026-02-25 talkingdev

一家名为Moonshine AI的小型初创公司（团队仅六人，月GPU预算低于10万美元）近日在GitHub上开源了其自动语音识别（ASR）项目Moonshine。该项目针对边缘设备优化，提供了快速且高精度的语音转文本（STT）模型。据开发...

2026-02-17 talkingdev

近日，开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目，旨在为市场上流行的实时语音转写服务（如Wispr Flow、Superwhisper、Monologue等）提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...