新注意力机制DG-SCT提升多模态任务音视频模型
talkingdev • 2023-11-14
1255321 views
近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分支,两个分支共同作用于模型中的每个特征图。实验证明,该注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果。目前,该项目已在GitHub上开源。
核心要点
- DG-SCT注意力机制可用于增强预先训练的音频-视频模型,以用于多模态任务
- DG-SCT具有空间通道分支和时间分支,共同作用于模型中的每个特征图
- DG-SCT注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果