该论文借鉴了LSTM的思想,并训练了一个拥有3B参数的模型,其性能优于更大的7B参数Transformer模型。这项工作有望在序列建模领域取得新的进展,尤其是在性能和可伸缩性方面。
Read MorePerplexity AI将网络索引和最新信息与会话式AI聊天机器人界面相结合,有可能取代谷歌。该公司最近发布了从Mistral和Meta开源模型中微调和增强的版本。这些模型旨在提供有用、真实和最新的信息。它们是第一个基于网络...
Read MoreNous Research发布了Hermes 2.5视觉模型,该模型基于最佳的7B语言模型和SigLIP集成,是一种强大的新型开源文本和视觉模型,可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题,该模型仍...
Read More谷歌将推迟Gemini的发布时间,从下周推迟到明年一月份。Gemini是谷歌的下一代基础模型,由于AI在处理非英语查询方面存在一致性问题而导致推迟。
Read More近日,美国政府与英特尔公司合作启动了一个名为ScienceGPT的训练计划。该计划旨在训练一个万亿参数的GPT模型,以便提高自然语言处理的效率和精度。GPT(Generative Pre-trained Transformer)是一种基于Transformer...
Read MoreSAFE是一种新的模式识别融合框架,它结合了预训练的视觉和语言模型,使用RGB帧、事件流和语义标签进行融合。该框架能够通过各种传感器收集的数据来识别和理解环境中的对象和场景,具有广泛的应用前景。在实现过程中...
Read More在知识蒸馏和初始化方面已经做了大量的工作,例如“彩票假设”。这项工作提供了一种简单的机制,可以从一个更大的模型中初始化一个更小的模型。这显著提高了较小模型的性能。
Read More现代大多数扩散模型都使用了注意力机制,但并非所有模型都如此。最近,对状态空间的兴趣浪潮已经传到了扩散模型中,这为理论加速和有趣的应用开辟了道路。扩散模型是一种机器学习模型,用于对自然界中的信号进行建模...
Read More