据报道,OpenAI计划在今年2024年夏季发布一个重要的人工智能模型,可能是GPT-5。这个新模型预计是一个多模态大型语言模型,其功能与GPT-4相似,但性能更为优秀。目前,OpenAI仍在对该模型进行训练,训练完成后将进行...
Read More苹果公司的研究团队近期在人工智能领域实现了创新性进展,他们开发出了一种能够在文本和图像上同时训练大型语言模型的方法。这一成就推动了多模态AI任务在性能上的显著提升,达到了艺术级水平。所谓多模态AI,指的是...
Read More稳定扩散 3 通过其新颖的多模态扩散转换器架构,通过文本和图像的分别处理权重,提高了提示理解和排版,优于领先的文本到图像模型,为AI生成的视觉内容带来了进步。
Read MoreAnthropic最近发布了Claude 3家族的三个新模型,其中最强的模型匹敌了GPT4的报告基准结果。此外,这是一个多模态模型,对视觉任务表现良好。值得注意的是,Claude的编码能力在此版本中得到了显著提高。
Read MorePromptMM是一种使用多模态知识蒸馏的在线购物推荐系统,可以改善像亚马逊和TikTok这样的平台上的推荐系统。它通过从各种内容类型(视觉、文本或声音)中蒸馏出重要特征,来解决用户偏好的不准确性,并简化系统,以防...
Read More本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。
Read More众所周知,现代对话模型依赖于纯文本输入,因此在语言和视觉交互中,模型的表现力有限。为了克服这些限制,研究人员一直在探索多模态对话系统。在此背景下,ChatterBox是一种优秀的多模态对话模型,可在新建立的多模...
Read More近日,一种名为ChartX的新工具发布在GitHub上,用于测试多模态大语言模型(MLLM)在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力,包括语言和视觉。该工具可以评估多种不...
Read More