漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-09-18 talkingdev

Moshi:开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型,旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力,能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

Read More
2024-07-08 talkingdev

2025春季更新:苹果智能助手Siri即将迎来重大改进

苹果智能助手Siri即将在2025年春季的iOS 18.4更新中获得重大改进。这次更新将引入如高级照片搜索等新功能,可能还会引入由AI驱动的表情符号和书写工具。通过这些改进,用户将能够更高效地利用Siri进行各类活动,包括...

Read More
2024-04-10 talkingdev

Meta即将发布全新大型语言模型Llama 3

Meta公司近日确认,其最新一代大型语言模型Llama 3将于下月推出。Llama 3是Meta为其生成式人工智能助手而开发的先进技术,旨在提供更加精准、自然的对话体验。该模型经过深入的优化和升级,预计将为用户带来更加丰富...

Read More
2024-04-02 talkingdev

苹果研究团队推出ReALM系统,性能超越GPT-4

苹果公司的人工智能研究人员开发了一种新型系统ReALM,该系统通过考虑屏幕上的内容、对话中的实体以及背景信息,增强了Siri理解上下文的能力。在基准测试中,ReALM系统的性能超过了ChatGPT 4.0。这一突破性的技术进...

Read More
2024-03-29 talkingdev

Meta为雷朋智能眼镜引入AI功能

Meta公司正计划为其雷朋品牌的智能眼镜增加人工智能功能。这些功能将包括实时翻译以及通过语音命令激活的物体、动物和纪念碑识别。这一创新将为用户带来更加便捷的交互体验,使得智能眼镜不仅仅是一种时尚配饰,更是...

Read More
2024-03-29 talkingdev

Hume推出情感语音界面 引领人工智能新趋势

Hume公司近日发布了一项创新产品——情感语音界面(Empathic Voice Interface,简称EVI),这是首款集成了情感智能的对话式人工智能技术。EVI能够理解和模拟人类情感,通过语音交互提供更为自然、贴心的用户体验。这一...

Read More
2024-03-25 talkingdev

DeepGram推出Aura:实现低于250毫秒的低延迟文本转语音API

DeepGram公司近日推出了一项名为Aura的创新产品,这是一款文本转语音(TTS)API,其最引人注目的特性是拥有低于250毫秒的响应延迟时间。这一技术突破意味着用户可以在实时应用中获得更快的语音反馈,极大提升了交互...

Read More
2024-03-19 talkingdev

苹果研究团队在多模态人工智能领域取得重大突破

苹果公司的研究团队近期在人工智能领域实现了创新性进展,他们开发出了一种能够在文本和图像上同时训练大型语言模型的方法。这一成就推动了多模态AI任务在性能上的显著提升,达到了艺术级水平。所谓多模态AI,指的是...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page