Figure 公司已经采用 OpenAI 技术,使得其机器人可以与人进行完整对话。OpenAI 的模型提供高级别的视觉和语言智能,而 Figure 的神经网络则可以提供快速、低级别的机器人动作。这篇文章包含一个视频,展示了一个人与...
Read MoreOpenAI宣布与Le Monde和Prisa Media合作,将他们的内容整合到ChatGPT中,以为用户提供交互式和深入的新闻访问,并协助模型训练。Le Monde和Prisa Media将提供大量的新闻和其他内容,以帮助改进ChatGPT的质量和精度。...
Read More据报道,OpenAI计划在进行漏洞测试和设置安全防护措施后,于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型,这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...
Read More最近的测试显示,像ChatGPT-4和谷歌的“Gemini Advanced”这样的先进AI模型在视觉智商测试中表现不佳,得分低于可测量的智商阈值。虽然ChatGPT-4表现出较强的模式识别能力,但它会出现视觉误认和逻辑错误,表明与人类...
Read More由于室外数据的复杂性和空白性,真实世界的室外环境一直是3D场景生成中被忽视的挑战。SemCity通过专注于真实世界的室外环境,彻底颠覆了3D场景生成,实现了真实的室外场景生成。SemCity通过3D扩散模型,将真实世界的...
Read More这项研究介绍了一种创新的视频生成方法,使用状态空间模型(SSMs)克服了传统的基于注意力扩散模型的内存限制,重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中,SSMs能够创建具有竞争力质量的更长...
Read MoreMoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...
Read More