VLM的相关内容 - 漫话开发者

2024-04-30 talkingdev

Moondream 2模型驱动的llamafile全功能VLM可执行文件

Moondream 2模型作为一种高效的AI模型，其性能强大且体积小巧，现已发布其全功能的VLM可执行文件，名为llamafile。这款全功能的VLM可执行文件是一种完全自包含的程序，可以在边缘设备上运行。这意味着，即使在没有网...

2024-04-02 talkingdev

视觉语言模型（VLMs）在处理输入图像时，有时会遇到无法回答的问题。即便是最先进的VLMs，如GPT-4V，也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试，并探讨了一些可能的改进方向。研究者们通过...

2024-03-21 talkingdev

Chain-of-Spot（CoS）技术近日提出了一种交互式推理方法，该方法大幅提升了大型视觉语言模型（LVLMs）处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域，使得LVLMs能够在不损失图像分辨率的前...

2024-02-22 talkingdev

近日，GitHub推出了一项新的方法，可以增强OpenFlamingo和LLaVA等多模型模型对视觉对抗攻击的防御能力。该方法通过无监督地微调CLIP视觉编码器，有效地保护这些模型免受恶意图像攻击，提高了它们在现实应用中的可靠...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-02-07 talkingdev

本篇论文揭示了大型视觉语言模型（LVLMs）为什么有时会错误地描述图像的原因，这种现象被称为多模态幻觉。语义转移偏差，特别是在段落中断处，是一个关键因素。研究人员发现，模型可能会出现误导性的预测，这些预测...

2024-01-23 talkingdev

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...

2024-01-09 talkingdev

V*是一种新的基于图像的搜索算法，可以显著提高GPT-V（和其他VLM）验证码识别性能。这项技术的开发者表示，V*可以通过大量的图像数据来训练模型，从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...