漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-04 talkingdev

Reka发布旗舰多模态模型Yasa-1,表现亮眼

Reka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...

Read More
2023-09-29 talkingdev

研究表明,AI语言模型在无损压缩方面能够超过PNG和FLAC

DeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。

Read More
2023-09-26 talkingdev

Spotify借助AI技术推出克隆和翻译播客者音频的新功能

近日,Spotify推出一项由AI驱动的语音翻译功能,该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录,很可能用于声音复制,使得翻译能够保持播客者独特的声音。这一创新...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
2023-09-18 talkingdev

论文:一种音频模型能同时处理语音、音乐和声音

研究人员已经开发出一种名为EncodecMAE的方法,该方法借鉴了基于文本的模型的思想,用来创建一个通用音频模型。这种新的方法对于理解语音、识别音乐或者识别环境中的声音等不同类型的音频任务都有很好的效果。Encode...

Read More
2023-09-14 talkingdev

StabilityAI推出Stability Audio:一款简单易用的文本转音频生成器

稳定性AI最近发布了一款名为“稳定音频”的产品,这是一款文本转音频生成器。它能让任何人通过简单的文本提示生成短音频剪辑。用户只需输入文本,然后通过其转换能力,就可以轻松转化为音频。这款新工具的推出,无疑将...

Read More
2023-09-06 talkingdev

Google发布最新Android功能更新并更新了标志

Google正在推出其移动应用程序和服务的新更新。 At a Glance小部件将提供有关事件,旅行和当地天气的更多有用信息。钱包将进行更新,以使上传带有条形码或QR码的通行证更加容易。 Lookout应用程序将能够智能地描述场...

Read More
2023-09-05 talkingdev

从浏览器小子到后端老大:WASM会赢得网络战争吗?

WebAssembly是一种二进制格式,允许Web开发者以接近本地速度运行代码,这可能确实会成为后端软件开发的未来。WebAssembly(WASM)是一个开放标准,可以将几乎任何语言编写的代码编译成一种可在Web上运行的格式,使得...

Read More
2023-09-04 talkingdev

论文:深度学习助力全能音效移除系统的构建

近期,音频深度学习领域焕发新生。通过使用一个分类器,接着是特定效果的模块,我们可以构建一个全能系统,逐步从已混合的音频中移除混响或延迟等效果。这种技术不仅能够增强音频处理的效率,还能改进音频的整体质量...

Read More
2023-08-31 talkingdev

Google Pixel 8:最新泄露与传言汇总

看起来谷歌正准备迎接十月份的硬件发布会。本页面收集了关于即将发布的Pixel手机系列的泄露信息的文章。Pixel发布会定于10月4日举行。设备的更新包括改进的相机应用界面、音频魔术橡皮擦和清晰模糊视频的方法。似乎...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page