新注意力机制DG-SCT提升多模态任务音视频模型

talkingdev • 2023-11-14

1255321 views

近日，研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal（DG-SCT）的新型注意力机制，可用于增强预先训练的音频-视频模型，以用于多模态任务。该机制具有两个分支，一个是空间通道分支，另一个是时间分支，两个分支共同作用于模型中的每个特征图。实验证明，该注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果。目前，该项目已在GitHub上开源。

核心要点

DG-SCT注意力机制可用于增强预先训练的音频-视频模型，以用于多模态任务
DG-SCT具有空间通道分支和时间分支，共同作用于模型中的每个特征图
DG-SCT注意力机制在多任务学习、视频分类、音频分类等多个任务中都取得了显著的提升效果

新注意力机制DG-SCT提升多模态任务音视频模型

核心要点

Related posts