多模态大型语言模型的相关内容 - 漫话开发者

2024-07-22 talkingdev

MoME-提升多模态语言模型性能的新方法

研究人员提出了一种名为“多模态专家混合体” (MoME) 的方法，以解决通用的多模态大型语言模型(MLLMs)中的任务干扰问题。在多模态大型语言模型中，任务干扰是一个常见的问题，它可能会影响模型的性能和效率。MoME的提...

2024-07-19 talkingdev

E5-V是一种新的框架，其改编了多模态大型语言模型（MLLMs）以创建全球多模态嵌入。通过使用提示，它弥补了不同输入类型之间的差距，而无需进行微调就实现了在多模态任务中的令人印象深刻的性能。这一全球多模态嵌入...

2024-04-10 talkingdev

苹果公司开发了一款名为Ferret-UI的多模态大型语言模型（LLM），该模型具备理解移动设备用户界面的能力，有望让Siri更有效地理解并与屏幕上的元素进行互动。Ferret-UI的出现预示着Siri将能够更加直观地与iOS应用进行...

2024-04-03 talkingdev

近日，Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示，旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入，通过深度学习技术，实现了更加自...

2024-03-21 talkingdev

据报道，OpenAI计划在今年2024年夏季发布一个重要的人工智能模型，可能是GPT-5。这个新模型预计是一个多模态大型语言模型，其功能与GPT-4相似，但性能更为优秀。目前，OpenAI仍在对该模型进行训练，训练完成后将进行...

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

2024-01-03 talkingdev

本项目介绍了对Google的Gemini进行深入分析的研究，Gemini是一种多模态大型语言模型，评估其在各种任务中的常识推理性能。该研究与其他模型进行了比较，揭示了其在跨模态知识整合方面的竞争能力。

2023-11-01 talkingdev

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...