COMM开源，改进多模态LLMs性能

talkingdev • 2023-11-01

1292007 views

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs的性能，同时减少了模型训练时间。