人工智能语音技术公司ElevenLabs近日发布了名为11.ai的个人AI语音助手,该产品以其低延迟特性脱颖而出,并深度整合了Perplexity、Linear、Slack和Notion等主流生产力平台。通过MCP(多通道处理)集成技术,11.ai能够...
Read More人工智能交互平台Character.AI近日宣布重大人事变动,前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问,此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家,An...
Read MoreNotte Labs近日在GitHub上开源了一款名为Notte的Web Agent框架,该框架旨在构建能够浏览并与网站交互的AI智能体。其核心创新在于引入了一个"感知层"(perception layer),该技术能够将网页内容转化为结构化的自然语...
Read More来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统,该系统基于音频语言模型,专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练,该数据集包含了大...
Read MoreGitHub上的开源项目RealtimeVoiceChat由开发者KoljaB推出,旨在实现与AI的自然语音对话,其延迟时间可控制在约500毫秒内,接近实时交互水平。该项目采用先进的语音识别和生成技术,结合高效的网络传输协议,显著提升...
Read MoreOpenAI近日发布了其最新一代音频模型,其中包括名为Voice Engine的创新技术。这一模型能够仅通过短样本生成高度逼真的人声,标志着人工智能在语音合成领域迈出了重要一步。Voice Engine的核心技术在于其先进的声音建...
Read MoreMMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...
Read More随着手势识别技术的进步,一项名为“手势跟踪鼠标输入”的新技术正在引起业界的关注。该技术允许用户通过简单的手势来控制鼠标指针,彻底摆脱了物理鼠标的束缚。通过先进的传感器和算法,系统能够精确捕捉用户手部的动...
Read More