视觉语言模型的相关内容 - 漫话开发者

2024-05-06 talkingdev

Mantis-训练视觉模型新进展，单图和多图指令调整

最近，科技领域出现了一种全新的数据集和训练视觉语言模型，它能够在多图之间实现更高质量的指令跟踪。这种新的训练模型采用先进的视觉语言处理技术，可以识别并理解图片中的信息，并根据这些信息生成相应的指令。这...

2024-04-15 talkingdev

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型（VLLM），该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练，这些数据集包含了大量的图像和相关文本信息，使...

2024-04-04 talkingdev

近日，GitHub上出现了一个名为Unsolvable Problem Detection (UPD)的项目，旨在探索视觉语言模型中的一个新测试，即人工智能是否能识别出某些问题是无解的。这项技术的核心在于训练AI模型，使其能够区分可解和不可解...

2024-04-02 talkingdev

视觉语言模型（VLMs）在处理输入图像时，有时会遇到无法回答的问题。即便是最先进的VLMs，如GPT-4V，也面临这一挑战。本文提出了一个针对VLMs在面对无解问题时的基准测试，并探讨了一些可能的改进方向。研究者们通过...

2024-03-21 talkingdev

Chain-of-Spot（CoS）技术近日提出了一种交互式推理方法，该方法大幅提升了大型视觉语言模型（LVLMs）处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域，使得LVLMs能够在不损失图像分辨率的前...

2024-03-13 talkingdev

该项目提出了一种改善大型视觉语言模型（例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA）效率的方法，解决了“低效的注意力”问题。使用FastV这种新方法，通过修剪视觉令牌和学习自适应注意力模式来优化这些模型，从而显著...

2024-02-12 talkingdev

CogCoM是一种全新的通用视觉语言模型，它具有独特的操作链机制。这使得它能够通过主动调整输入图像来处理多轮视觉推理。该模型已经在GitHub上发布。

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...