LongLlama - 聚焦变换器训练的开放源码模型(GitHub Repo)
talkingdev • 2023-07-14
1609231 views
聚焦变换器是一种有趣的检索策略,它使用对比学习来提高key和value的缓存使用。此方法已被证明可相对稳定地扩展到几十万个标记。然而,目前尚不清楚这种方法在大规模应用中的表现如何,或者是否受到其他长期上下文方法所困扰的“被遗忘的中间”问题的影响。
核心要点
- 聚焦变换器是一种利用对比学习提高key和value缓存使用的检索策略
- 聚焦变换器已被证明可稳定地扩展到几十万个标记
- 尚不清楚聚焦变换器在大规模应用中的表现如何,或者是否会受到'被遗忘的中间'问题的影响