漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-14 talkingdev

AI初创公司Reka发布更新多模态模型

AI初创公司Reka宣布推出了一个新的模型,该模型具备210亿个参数,完全从头开始训练。它是本地多模态的,胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是,考虑到该公司的创始人曾经工作的公司,它也匹配了G...

Read More
2024-02-14 talkingdev

苹果推出MGIE,一款革命性的AI模型,用于基于指令的图像编辑

苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...

Read More
2024-02-12 talkingdev

《口袋妖怪Go》创始人支持多模态AR眼镜获新轮融资

新加坡Brilliant Labs推出了一款名为Frame的轻量级AR眼镜,配备了一款名为Noa的多模态AI助手,可以通过集成的AI模型如GPT-4和稳定扩散执行视觉处理、图像生成等多项任务,获得了多位创业投资人的青睐。据悉,这款眼...

Read More
2024-02-12 talkingdev

利用任务指导提升Agent的游戏玩法

本文探讨了开发一种通用的AI代理的能力,能够理解和遵循游戏玩法指令的步骤,这是迈向“准备好玩”的能力的一步。研究人员通过将多模态游戏指令集成到决策转换器中,增强了代理的多任务和泛化能力。

Read More
2024-02-09 talkingdev

论文:挑战多模态语言模型的新基准测试

一项新研究揭示了多模态大型语言模型(MLLMs)如GPT-4V的一个弱点:它们难以处理特定类型的图像-文本输入,从而导致错误。CorrelationQA是一个基准测试,旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...

Read More
2024-02-09 talkingdev

MobileVLM,为移动设备量身打造的先进视觉语言模型

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

Read More
2024-02-08 talkingdev

论文:新工具解决多模态LLM中的幻觉问题

针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...

Read More
2024-02-07 talkingdev

论文:多模态AI幻觉,解读视觉语言模型的错误描述现象

本篇论文揭示了大型视觉语言模型(LVLMs)为什么有时会错误地描述图像的原因,这种现象被称为多模态幻觉。语义转移偏差,特别是在段落中断处,是一个关键因素。研究人员发现,模型可能会出现误导性的预测,这些预测...

Read More
2024-01-30 talkingdev

多模态路径:将其他模态数据与Transformer相结合

该项目提出了一种新颖的增强Transformer的方法,使用来自不同模态的无关数据,例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer,使目标模态能够从另一种模态的优势中受益。

Read More
2024-01-30 talkingdev

基于Phi-2和SigLIP训练的多模态模型,可在本地设备上运行

最近,一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色,并且体积小,足以在设备上运行。Imp v1 3B的发布,对于未来的多模态研究和应用具有重要意义。目前,该模型的开源代码已...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page