该项目提出了一种改善大型视觉语言模型(例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA)效率的方法,解决了“低效的注意力”问题。使用FastV这种新方法,通过修剪视觉令牌和学习自适应注意力模式来优化这些模型,从而显著...
Read MoreVideoMamba是一种解决视频理解复杂性的解决方案,它通过高效地管理本地冗余和全局依赖性来实现。该项目的创建者宣布,他们已经将代码和模型全部发布到GitHub上供公众使用。这个开源项目将提高人工智能在视频理解上的...
Read MoreOpenAI的超对齐团队开发了一款名为Transformer Debugger的工具,以支持对小型语言模型的特定行为进行调查。该工具将自动可解释性技术与稀疏自编码器相结合。
Read More这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...
Read More最近,一种基于Mamba竞争对手的DNA序列预测模型被开发出来。这个模型不仅非常高效,而且拥有强大的预测能力,而且模型规模非常小。目前,该模型已经在DNA测序领域得到了广泛的应用。
Read More物理智能公司(Pi)已经从隐蔽状态中浮出水面,获得了7000万美元的种子融资。该公司由一群知名的机器人和人工智能专家创立,旨在开发基础模型和学习算法,为各种机器人和具有物理驱动装置的设备提供动力。
Read MoreCognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。
Read More