IBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...
Read MoreM1是一种基于Mamba架构的推理模型,通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平,但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向,特别...
Read More本项目介绍了开放项目SAM,这是一个结合了CLIP和SAM模型的框架,用于提高图像分割和识别的能力。CLIP模型是一种基于对比学习的神经网络模型,用于学习图像和文字之间的关系,而SAM模型则是一种序列建模方法,用于对...
Read More该论文借鉴了LSTM的思想,并训练了一个拥有3B参数的模型,其性能优于更大的7B参数Transformer模型。这项工作有望在序列建模领域取得新的进展,尤其是在性能和可伸缩性方面。
Read More最近,状态空间模型引起了广泛关注。它们作为一种潜在有用的模型替代方案而出现,通过避开Transformer的一些挑战性方面,同时保持性能。在这项工作中,Hyena模型被应用于DNA序列建模,并在23个任务中取得了改进。
Read More谷歌多年来记录了其代码库的每一次更改,包括详细的描述、更改和修复。他们将其视为序列建模问题,并创建了一组强大的内部工具,可以帮助软件工程师提高效率。他们发现,这种方法即使在像“基于历史信息的生成”这样的...
Read More