微信扫码实时跟踪AI前沿
近日,Liquid AI宣布推出其最新基础模型LFM2.5-230M,这是一款参数规模仅为2.3亿的非Transformer架构模型。与当前主流的Transformer模型不同,LFM2.5-230M基于状态空间模型与液态神经网络连续时间公式构建。尽管体积...
Mamba是一种非Transformer的模型,其性能惊人。它经过了SFT的聊天调优,并且似乎具有比同等大小的Transformer更好的开箱即用的检索能力。