漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-03-03 talkingdev

开源|从零打造亚500毫秒延迟语音助手:技术架构与关键洞察

开发者Nick Tikhonov近日开源了一个名为“shuo”的语音助手项目,其端到端平均延迟仅为约400毫秒(从用户停止说话到助手发出第一个音节)。这一性能指标在集成了完整的语音识别(STT)、大语言模型(LLM)和语音合成(...

Read More
2026-02-25 talkingdev

开源|Moonshine开源语音识别模型:边缘设备上的STT精度超越WhisperLargev3

一家名为Moonshine AI的小型初创公司(团队仅六人,月GPU预算低于10万美元)近日在GitHub上开源了其自动语音识别(ASR)项目Moonshine。该项目针对边缘设备优化,提供了快速且高精度的语音转文本(STT)模型。据开发...

Read More
2026-02-17 talkingdev

开源|FreeFlow:对标Wispr Flow与Superwhisper的开源实时语音转写替代方案

近日,开发者Zach Latta在GitHub上发布了名为FreeFlow的开源项目,旨在为市场上流行的实时语音转写服务(如Wispr Flow、Superwhisper、Monologue等)提供一个免费且开源的替代方案。该项目在Hacker News社区引发了广...

Read More
2026-02-13 talkingdev

Omnara:用手机或网页远程操控AI编程助手,实现跨设备无缝开发

Omnara推出了一款创新的移动与网页客户端,旨在彻底改变开发者与AI编程助手(如Claude Code和Codex)的交互方式。该平台允许用户通过手机或任何网页浏览器,远程控制运行在个人电脑上的AI编程会话,实现了真正的跨设...

Read More
2026-01-30 talkingdev

苹果收购以色列AI初创公司Q.ai,强化音频AI技术护城河

苹果公司近日完成了对以色列初创公司Q.ai的收购,此举旨在强化其在人工智能音频处理领域的技术储备。Q.ai专注于成像与机器学习技术,尤其在两大前沿方向拥有核心专长:一是实现设备对“耳语”等极低音量语音的精准识别...

Read More
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-09 talkingdev

开源|Sopro TTS:仅1.69亿参数,支持零样本语音克隆的轻量级CPU端模型

近日,GitHub上开源了一个名为Sopro的轻量级文本转语音(TTS)模型,其核心亮点在于仅包含1.69亿参数,却实现了零样本语音克隆能力,并能在普通CPU上流畅运行。该项目由开发者samuel-vitorino发布,迅速在技术社区引...

Read More
2025-12-18 talkingdev

xAI开放Grok语音代理API,成本仅为OpenAI Realtime API一半

埃隆·马斯克旗下的人工智能公司xAI近日宣布,将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page