一项新的基准测试对当前先进的深度和表面法线估计模型进行了评估。这个基准测试将在众多模型中筛选出表现最优秀的,为研究者和开发者提供参考。这一进步对于提升计算机视觉技术,尤其是在深度感知和三维建模方面,具...
Read More谷歌近日发布了最新模型Gemini 1.5的技术报告。报告详细介绍了此次升级的主要内容和改进之处,但并未透露过多关于模型或所使用数据的信息。然而,报告中对评估和安全措施的详尽描述,让我们得以深入了解大规模对齐的...
Read MoreMeta公司近日宣布发布一种名为Chameleon的全新模型,该模型可以像GPT-4o那样同时操作图像和文本。相比于许多其他的替代模型,Chameleon展现出了更好的性能。据悉,Meta团队在内部模型上已经远远超越了这项工作。该模...
Read MoreOpenAI近日宣布推出一款名为GPT-4o的全新模型。此款模型是一种天生的多模型处理,其性能在文本处理方面已超越GPT-4,并在各种模式上展现出最先进的性能。OpenAI同时也发布了一款全新的桌面应用,一个接近实时的音频...
Read More在这次采访中,Quora的首席执行官Adam D'Angelo探讨了如何通过为内容创作者建立基础设施来实现人工智能的民主化。采访涵盖了社交网络如何补充AI、多模型和多模态AI的概念、如何将AI技术普及给大众、为创作者提供AI基...
Read More近日,GitHub推出了一项新的方法,可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器,有效地保护这些模型免受恶意图像攻击,提高了它们在现实应用中的可靠...
Read MoreAdept公司扩大了其Fuyu架构并训练了一个更大的版本,目前是MMMU上排名第三的最佳模型之一。该模型在其他任务中也表现良好(例如,在HumanEval编码基准测试中达到40+)。与其他替代方案相比,扩展此架构的挑战较少,...
Read More这篇技术报告介绍了MMCBench,这是一个新的基准测试,旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型(LMMs)的一致性和可靠性。该测试涵盖了超过100个流行模型,旨在提高读者对这些AI系统在现实世界...
Read MoreLlava是一个强大的多模型模型。该交互式设计现在允许聊天式交错文本、图像输入和图像输出。Llava是一个深度学习模型,能够对文本和图像数据进行联合建模,并产生准确的输出。与其他模型不同的是,Llava模型不仅考虑...
Read More标记提示集是一种聪明的方法,可以显着提高视觉+语言模型的性能。Roboflow的这个库为您提供类似的控制,并使使用这些模型构建强大的视觉管道变得更加容易。它甚至支持像LLaVa这样的开放模型。
Read More