VLM的相关内容 - 漫话开发者

2024-06-20 talkingdev

微软发布全新顶尖视觉模型Florence-2

微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型（VLMs）。这套模型在图像标注、边界识别和分类等任务上，表现出色，大大超过了许多体型更大的模型。Florence-2模型的发布，标志着微软在人工智能和机...

2024-06-12 talkingdev

CARES是一个全面的评估框架，用于评估医疗大视觉语言模型（Med-LVLMs）的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样，医疗大视觉语言模型的可信度是其成...

2024-06-07 talkingdev

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型（VLM）。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术，包括深度学习和神经网络优化，从而实...

2024-05-22 talkingdev

在大型视觉语言模型（LVLMs）中，输出结果往往更倾向于语言模型的先验知识，而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术，有效减少了这种偏差。这些技术使得模型在处理各种任务时，能够生成更加准...

2024-05-20 talkingdev

MoonDream在最新的实验中，利用WebGPU的推断功能，直接在网络上运行了一个小型的MoonDream VLM。这一实验的成功，标志着MoonDream在提升其在线服务能力方面又迈出了重要的一步。WebGPU是一种新型的网络图形技术，它...

2024-05-20 talkingdev

现在，您可以使用GPT-Fast实时运行最新的Google VLM。这为我们打开了一扇强大的大门，因为该模型非常容易为特定任务进行微调。这意味着，我们可以轻松地将其应用到各种下游任务中。PaliGemma的实时运行不仅能够提高...

2024-05-17 talkingdev

Xmodel-VLM是一种针对消费级GPU服务器优化的视觉语言模型。为解决高昂的服务成本限制了大规模多模态系统的应用，这个10亿规模的模型采用了LLaVA范式进行模态对齐。这是一种新的方法，它优化了视觉和语言之间的协同工...

2024-05-10 talkingdev

近日，一种新型的标签方法被研究者利用在了图片和文字的配对上，这种方法运用了两次的VLMs（视觉语言模型）扫描，产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细，能够帮助训练...