音频超分辨率是提高任何音频的质量和保真度的过程,无论是真实的还是合成的。大多数超分辨率系统都是针对特定任务而设计的,单个模型仅针对单个音频数据类型进行训练(如语音与音乐)。这项新工作是一个惊人的进步,...
Read More近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...
Read More高通即将推出的骁龙8 Gen 3芯片将在三星的Galaxy S24上首次亮相,该芯片强调先进的人工智能相机工具和更快的处理速度。骁龙8 Gen 3芯片将具有更高的AI性能,从而使智能手机拍照更加清晰、更加快速,而且拥有更好的电...
Read MoreOpenAI的Whisper Large v2音频转录模型发布了。这个模型采用了非常先进的技术,可以在不到10分钟的时间内转录出300分钟的音频。这一速度远远超过了之前的音频转录模型,对于信息的获取和处理提供了极大的便利。这个...
Read More本文介绍了SALMONN,这是一种独特的AI模型,它将文本理解与处理各种音频输入(从语音到音乐)的能力相结合。 SALMONN不仅在训练过的音频任务(如语音识别)中表现出色,而且展示了令人印象深刻的新技能,例如将语音...
Read More这项研究介绍了一种名为Ex-MCR的新方法,该方法可以有效地学习多个模态的统一对比表示,而无需配对数据。通过对齐现有的多模态对比表示,Ex-MCR在音频-视频检索和3D物体分类等任务中实现了最佳性能。该方法在GitHub...
Read MoreInsanely Fast Whisper是一个使用OpenAI的Whisper Large v2模型的音频转录工具,它可以在不到10分钟的时间内转录300分钟的音频。该工具快速且易于使用,同时可提供基准测试结果。
Read More研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...
Read MoreReka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...
Read MoreDeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。
Read More