LLMs使用Dual Chunk Attention处理10万个令牌
talkingdev • 2024-03-01
944127 views
Dual Chunk Attention(DCA)扩展了大型语言模型(如Llama2 70B)的能力,使它们能够处理超过100k个令牌而无需额外的训练。它将注意力计算分解成块,增强了模型对短期和长期上下文的理解。
核心要点
- Dual Chunk Attention是一种新的注意力计算方法,可以帮助大型语言模型处理更多的令牌。
- 这种方法可以分解注意力计算,从而提高模型对上下文的理解。
- 使用Dual Chunk Attention的Llama2 70B可以处理超过100k个令牌,而无需额外的训练。