流媒体LLM:一种理论上可以支持无限上下文窗口大小的语言模型算法更新
talkingdev • 2023-10-03
1376080 views
语言模型的性能往往受到其上下文长度的限制。一般来说,上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM(Github Repo)提供了一种算法更新,通过将令牌流式传输至注意力机制,理论上可以支持无限的上下文窗口大小。通常情况下,这种主张在大规模应用时会遭遇挫折,但StreamingLLM显得稳健,因为它可以在现有的预训练模型上工作,而无需进行微调。然而,这是否会加剧所谓的“遗忘中间问题”呢?这是值得我们进一步探讨的问题。
核心要点
- StreamingLLM是一种可以理论上支持无限上下文窗口大小的语言模型算法更新
- StreamingLLM可以在现有的预训练模型上工作,无需进行微调
- StreamingLLM可能会加剧“遗忘中间问题”