Reka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...
Read MoreDeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。
Read More近日,Spotify推出一项由AI驱动的语音翻译功能,该功能能够利用原播客者的声音在其他语言中复制播客节目。这项技术依赖于OpenAI的Whisper进行转录,很可能用于声音复制,使得翻译能够保持播客者独特的声音。这一创新...
Read More这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...
Read More研究人员已经开发出一种名为EncodecMAE的方法,该方法借鉴了基于文本的模型的思想,用来创建一个通用音频模型。这种新的方法对于理解语音、识别音乐或者识别环境中的声音等不同类型的音频任务都有很好的效果。Encode...
Read More稳定性AI最近发布了一款名为“稳定音频”的产品,这是一款文本转音频生成器。它能让任何人通过简单的文本提示生成短音频剪辑。用户只需输入文本,然后通过其转换能力,就可以轻松转化为音频。这款新工具的推出,无疑将...
Read MoreGoogle正在推出其移动应用程序和服务的新更新。 At a Glance小部件将提供有关事件,旅行和当地天气的更多有用信息。钱包将进行更新,以使上传带有条形码或QR码的通行证更加容易。 Lookout应用程序将能够智能地描述场...
Read MoreWebAssembly是一种二进制格式,允许Web开发者以接近本地速度运行代码,这可能确实会成为后端软件开发的未来。WebAssembly(WASM)是一个开放标准,可以将几乎任何语言编写的代码编译成一种可在Web上运行的格式,使得...
Read More近期,音频深度学习领域焕发新生。通过使用一个分类器,接着是特定效果的模块,我们可以构建一个全能系统,逐步从已混合的音频中移除混响或延迟等效果。这种技术不仅能够增强音频处理的效率,还能改进音频的整体质量...
Read More看起来谷歌正准备迎接十月份的硬件发布会。本页面收集了关于即将发布的Pixel手机系列的泄露信息的文章。Pixel发布会定于10月4日举行。设备的更新包括改进的相机应用界面、音频魔术橡皮擦和清晰模糊视频的方法。似乎...
Read More