漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-03 talkingdev

论文:视频理解技术突破,R2-Tuning技术通过语音提示识别特定瞬间

研究人员最近开发了一种名为R2-Tuning的技术,这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理,使得机器能够像人类一样理解视频内容中的关键时...

Read More
2024-04-03 talkingdev

Light Whisper:为苹果芯片打造极速Whisper语音识别实现

Lightning Whisper MLX是一款针对苹果硅芯片优化的Whisper语音识别算法的高速实现版本。它采用批量解码技术以提高吞吐量,运用蒸馏模型以加快解码速度,并引入量化模型以加速内存传输。相较于传统的Whisper CPP,Lig...

Read More
2024-03-29 talkingdev

谷歌将Gemini Nano技术引入Pixel 8手机 提升录音与键盘智能回复功能

谷歌宣布,即将推出的Pixel 8手机将在开发者预览版中集成Gemini Nano技术。这一技术的应用旨在增强手机内置应用的功能,特别是录音器中的'Summarize'摘要功能和Gboard键盘的'Smart Reply'智能回复功能。Gemini Nano...

Read More
2024-03-11 talkingdev

微软或将于本月推出首款'AI PC'

微软即将于3月21日公开展示Surface Pro 10和Surface Laptop 6,这两款电脑将配备最新的神经处理单元,可提升人工智能能力。这些电脑将由英特尔的第11代酷睿处理器提供动力,其内置的AI引擎可提供更快的AI处理速度和...

Read More
2024-02-28 talkingdev

VSP-LLM可视化语音识别框架开源

Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

Read More
2024-02-23 talkingdev

Reddit与AI公司签订新的训练协议,出售用户内容

Reddit已经与一家未透露姓名的大型AI公司签订了一份价值约6000万美元的许可协议,授权该公司可以访问Reddit大量的用户生成内容。Reddit表示,这项协议将帮助AI公司培训其算法,从而提高其在自然语言处理和语音识别等...

Read More
2024-02-21 talkingdev

论文:零数据训练,成功突破语音翻译难题

近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...

Read More
2024-02-13 talkingdev

Phidata-构建AI助手工具包开源

Phidata是一个使用函数调用构建AI助手的工具包。它不仅可以帮助开发者更快地构建AI助手,还可以通过模块化设计轻松扩展其功能。Phidata基于Python语言,支持各种功能,包括自然语言处理、语音识别和图像识别。它还提...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page