AI初创公司Reka宣布推出了一个新的模型,该模型具备210亿个参数,完全从头开始训练。它是本地多模态的,胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是,考虑到该公司的创始人曾经工作的公司,它也匹配了G...
Read More苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...
Read More新加坡Brilliant Labs推出了一款名为Frame的轻量级AR眼镜,配备了一款名为Noa的多模态AI助手,可以通过集成的AI模型如GPT-4和稳定扩散执行视觉处理、图像生成等多项任务,获得了多位创业投资人的青睐。据悉,这款眼...
Read More本文探讨了开发一种通用的AI代理的能力,能够理解和遵循游戏玩法指令的步骤,这是迈向“准备好玩”的能力的一步。研究人员通过将多模态游戏指令集成到决策转换器中,增强了代理的多任务和泛化能力。
Read More一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...
Read MoreMobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...
Read More针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...
Read More本篇论文揭示了大型视觉语言模型(LVLMs)为什么有时会错误地描述图像的原因,这种现象被称为多模态幻觉。语义转移偏差,特别是在段落中断处,是一个关键因素。研究人员发现,模型可能会出现误导性的预测,这些预测...
Read More该项目提出了一种新颖的增强Transformer的方法,使用来自不同模态的无关数据,例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer,使目标模态能够从另一种模态的优势中受益。
Read More最近,一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色,并且体积小,足以在设备上运行。Imp v1 3B的发布,对于未来的多模态研究和应用具有重要意义。目前,该模型的开源代码已...
Read More