视觉变换器的需求:寄存器
talkingdev • 2023-10-02
1378598 views
近几周出现的最酷、最简洁的视觉论文之一。视觉变换器使用“无用”的像素值作为存储全局信息的地方,这使得注意力映射变得难以解读。然而,如果你向词汇表中加入一个简单的 [reg] 标记,模型就会使用它,而不会将信息存储在像素值中。这种方法的出现,不仅提高了视觉变换器的处理效率,也给其使用者带来了更大的便利。为了更有效地利用这项技术,我们需要对它进行深入的研究和理解。
核心要点
- 视觉变换器使用'无用'的像素值作为存储全局信息的地方
- 加入一个简单的 [reg] 标记,模型将不会将信息存储在像素值中
- 这种方法提高了视觉变换器的处理效率,也给其使用者带来了更大的便利