Google、Weizmann科学研究所和特拉维夫大学推出了Lumiere,这是一种用于逼真视频生成的时空扩散模型,相对于现有的AI视频模型,它承诺更连贯的运动和更高的质量。目前尚未公开测试。
Read MoreLLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大,可以轻松实现视频摘要和字幕的最新表现。
Read More近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...
Read More训练优秀的视频模型通常需要巨大的资源,这种需求往往超出了学术界的承受范围。现在,研究人员已经找到了一种方法,只需要使用一台配备八个标准GPU的机器,在一天内就能完成这些模型的训练。这意味着,我们不再需要...
Read More