RWKV发布Eagle 7B模型
talkingdev • 2024-01-31
1030384 views
RWKV是主流Transformer模型的一种架构替代方案。它使用一种新颖的线性注意力机制,使其极其高效。这个新的检查点和配置是在1T令牌上训练的,超越了许多其他功能强大的基于7B Transformer的模型。
核心要点
- RWKV发布Eagle 7B,这是一种架构替代方案
- Eagle 7B使用新颖的线性注意力机制,使其极其高效
- Eagle 7B在1T令牌上训练,超越了许多其他基于7B Transformer的模型