Nous研究使用Yarn方法优化Mistral 7B模型,可处理长达128k的语境
talkingdev • 2023-11-06
1277681 views
Nous研究利用他们的Yarn方法对Mistral 7B进行了微调,可以处理长达128k的语境。它在短序列长度上显示出最小的退化,并在长文档上大大提高了性能。
核心要点
- Nous研究使用Yarn方法对Mistral 7B模型进行优化
- Mistral 7B模型现在可以处理长达128k的语境
- 该模型在短序列长度上有最小的退化,但在长文档上性能大大提高