Meta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文,引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径,而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...
Read More加州大学洛杉矶分校研究团队最新提出的NVG(Next Visual Granularity)框架,标志着图像生成领域取得重大技术突破。该创新性方法采用结构化序列建模技术,通过多层次渐进式优化机制,首次实现了从全局布局语义到局部...
Read MoreIBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...
Read MoreM1是一种基于Mamba架构的推理模型,通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平,但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向,特别...
Read More本项目介绍了开放项目SAM,这是一个结合了CLIP和SAM模型的框架,用于提高图像分割和识别的能力。CLIP模型是一种基于对比学习的神经网络模型,用于学习图像和文字之间的关系,而SAM模型则是一种序列建模方法,用于对...
Read More该论文借鉴了LSTM的思想,并训练了一个拥有3B参数的模型,其性能优于更大的7B参数Transformer模型。这项工作有望在序列建模领域取得新的进展,尤其是在性能和可伸缩性方面。
Read More最近,状态空间模型引起了广泛关注。它们作为一种潜在有用的模型替代方案而出现,通过避开Transformer的一些挑战性方面,同时保持性能。在这项工作中,Hyena模型被应用于DNA序列建模,并在23个任务中取得了改进。
Read More谷歌多年来记录了其代码库的每一次更改,包括详细的描述、更改和修复。他们将其视为序列建模问题,并创建了一组强大的内部工具,可以帮助软件工程师提高效率。他们发现,这种方法即使在像“基于历史信息的生成”这样的...
Read More