思考再说:为LLMs添加暂停标记以提高推理能力
talkingdev • 2023-10-05
1370133 views
最近的研究表明,为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增。这项工作表明,将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理(仅解码器,最高可达10亿)的能力,最多可提高18%。直观上,这增加了一些可学习和可操作的向量,用于存储在生成序列时要使用的重要全局信息。一般来说,添加标记已经扩展到超过130亿个参数,但是在前沿模型规模上这种方法的效果如何还不清楚。
核心要点
- 为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增
- 将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理的能力,最多可提高18%
- 添加标记已经扩展到超过130亿个参数,但是在前油模型规模上这种方法的效果如何还不清楚