语音助手的相关内容 - 漫话开发者

2026-07-24 talkingdev

微软发布MAI-Image-2.5-Pro与MAI-Voice-2-Flash：高保真图像生成和超低延迟语音模型正式公开预览

微软正式推出两款全新自研AI模型——MAI-Image-2.5-Pro和MAI-Voice-2-Flash，进一步强化其在多模态生成领域的布局。MAI-Image-2.5-Pro专注于高保真图像生成与编辑，能够根据复杂文本描述生成细节丰富、构图精准的高质...

2026-07-12 talkingdev

OpenAI正式推出新一代语音模型GPT-Live，并已作为核心引擎驱动ChatGPT Voice。该模型首次实现了真正的全双工交互能力，能够同时进行聆听与讲话，彻底告别传统语音助手“轮流发言”的机械感。GPT-Live不仅可以捕捉和处...

2026-06-13 talkingdev

据《南华早报》记者Iris Deng报道，华为正式发布了HarmonyOS 7操作系统。该版本最大的亮点在于引入了一种被称为“智能体友好”（agent-friendly）的全新架构，旨在构建一个开放的AI生态系统。通过这一架构，HarmonyOS...

2026-05-08 talkingdev

OpenAI近日在API中正式推出了一系列全新的实时音频模型，标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型：GPT-Realtime-2，专注于增强对话式推理能力，能够实现更自然、更具逻辑性的实时语音对话；G...

2026-03-11 talkingdev

近日，GitHub上开源项目RCLI引发开发者社区关注。该项目是一款专为搭载Apple Silicon芯片的macOS设备设计的全本地化语音AI助手。其核心价值在于构建了一个完整的端侧AI处理流水线，集成了语音识别（Speech-to-Text）...

2026-03-11 talkingdev

近日，GitHub开源项目RCLI（RunanywhereAI/RCLI）发布，为macOS用户带来了一款完全在设备端运行的语音人工智能助手。该工具的核心创新在于其“全本地化”架构，集成了本地语音AI与检索增强生成（RAG）技术，用户可直接...

2026-03-03 talkingdev

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目，其端到端平均延迟仅为约400毫秒（从用户停止说话到助手发出第一个音节）。这一性能指标在集成了完整的语音识别（STT）、大语言模型（LLM）和语音合成（...

2026-02-17 talkingdev

近日，开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目，旨在为市场上流行的实时语音转写服务（如Wispr Flow、Superwhisper、Monologue等）提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...