研究人员发现了一种方法,可以在无需进行矩阵乘法(MatMul)的情况下,依然保持大型语言模型的强大性能,甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率,减少资源消耗,并为未来的AI模型...
Read MoreMamba团队发布了Mamba-2,这是他们强大的状态空间模型的第二个版本。Mamba-2在前一版本的基础上进行了多项改进,显著提升了模型的性能和稳定性。该团队还提供了一份详细的说明文档,详细介绍了Mamba-2的技术细节和具...
Read MoreYuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性...
Read More深度学习领域有了一项新的突破。研究人员开发出了一个新的状态空间模型,这一模型使用双重转移函数表示。其主要特点是一个无状态的序列并行推理算法。这种新的推理算法能够在处理大规模数据时,有效提高计算效率和准...
Read MoreMirage项目是一个多层次的张量优化引擎,能够产生极高性能的线性代数模块内核。它利用了张量的多层结构,进行深度优化,从而实现了高度优化的内核计算。在GitHub上,Mirage项目已经开源,并得到了广大开发者的热烈追...
Read MoreQoQ,一种新型量化算法,通过使用4位权重、8位激活和4位KV缓存,加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术,它能够减少模型的存储需求和计算复杂性。在这种情况下,QoQ算法采用了较低精度的数...
Read MoreGoogle DeepMind与Isomorphic Labs联手开发了第三代AlphaFold,这是一款强大的蛋白质折叠预测模型。他们正在推出AlphaFold Server,这是一种免费的与模型交互的方式。AlphaFold 3比前两代的准确性提高了50%。它准确...
Read MoreLlama3是一种革命性的新技术,它通过使用Unsloth进行微调,可以在保持相同的计算效率的同时,显著降低VRAM的使用量。最近的研究表明,使用Unsloth微调Llama3可以使上下文长度增长六倍,这比HF的flash attention技术...
Read More