提升视觉基础模型性能:ViSFT开源
talkingdev • 2024-01-23
1053247 views
针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像和文本的表示,然后使用有监督的微调来进一步提高模型性能。研究人员表示,他们在多个数据集上对ViSFT进行了评估,证明了该方法的有效性。ViSFT方法已在GitHub上开源。