多模态的相关内容 - 漫话开发者

2024-02-14 talkingdev

苹果发布多模态LLM指导下的图像编辑代码

苹果发布了一款新的代码，使用多模态语言模型来改进人类提供的自然语言图像编辑。这个新的代码的核心思想是使用大型语言模型来指导用户对图像进行编辑，从而提高编辑的质量和效率。该代码的具体实现是将图像与自然语...

2024-02-14 talkingdev

AI初创公司Reka宣布推出了一个新的模型，该模型具备210亿个参数，完全从头开始训练。它是本地多模态的，胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是，考虑到该公司的创始人曾经工作的公司，它也匹配了G...

2024-02-14 talkingdev

苹果推出了一款名为MGIE的开源AI模型，用于图像编辑，使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作，例如“使图像更亮”或“添加红色滤镜”。苹果表示，MGIE的目的是...

2024-02-12 talkingdev

新加坡Brilliant Labs推出了一款名为Frame的轻量级AR眼镜，配备了一款名为Noa的多模态AI助手，可以通过集成的AI模型如GPT-4和稳定扩散执行视觉处理、图像生成等多项任务，获得了多位创业投资人的青睐。据悉，这款眼...

2024-02-12 talkingdev

本文探讨了开发一种通用的AI代理的能力，能够理解和遵循游戏玩法指令的步骤，这是迈向“准备好玩”的能力的一步。研究人员通过将多模态游戏指令集成到决策转换器中，增强了代理的多任务和泛化能力。

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-02-08 talkingdev

针对多模态大语言模型（MLLM）中的幻觉问题，研究人员开发了MHaluBench，一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力，从而有效提高模型的质量和准确性。目前，该工具已经...