多模态模型的相关内容 - 漫话开发者

2025-02-24 talkingdev

谷歌发布SigLIP2：图像与文本编码模型的重大升级

SigLIP2作为SigLIP的升级版本，在多个方面实现了显著改进。SigLIP原本是一款广受欢迎的联合图像与文本编码模型，而SigLIP2在零样本分类性能上取得了重大突破，这一性能曾是CLIP模型的标志性成果。此次升级不仅提升了...

2024-09-27 talkingdev

Together AI推出了Llama 3.2版本，用户可以在Together Playground上免费体验这一全新多模态模型。该模型在训练、微调和推理方面支持200多个模型，包括最新的Llama 3.2视觉模型。Llama 3.2在生产规模下实现了4倍的速...

2024-07-11 talkingdev

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期，研究者们着重对该模型进行了微调，成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性，也为未来的开发打开了新的可能...

2024-07-03 talkingdev

MM-Instruct是一个大规模数据集，旨在提升大型多模态模型（LMMs）的指令跟随能力。这个数据集集合了大量的指令和相关的视觉内容，帮助模型更好地理解和执行人类的指令。通过这种方式，MM-Instruct能够为多模态模型提...

2024-06-04 talkingdev

InvariantSelectPR是一种旨在提高大型多模态模型（LMMs）在特定领域如医疗保健中的适应性的方法。这种方法通过优化模型的选择和调整，使其能够更好地处理不同领域的数据，提高预测的准确性和可靠性。在医疗领域，数...

2024-06-03 talkingdev

在停摆三年后，OpenAI 宣布重启其机器人研究团队。此举旨在开发多模态机器人模型，并改进核心的人工智能模型。OpenAI 的这一决定标志着其在机器人领域的再度发力，旨在通过多模态模型结合视觉、语音和动作等多种感知...

2024-05-10 talkingdev

近日，一种新型的标签方法被研究者利用在了图片和文字的配对上，这种方法运用了两次的VLMs（视觉语言模型）扫描，产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细，能够帮助训练...

2024-04-28 talkingdev

多模态模型Bunny系列是一套强大的开放模型，尤其在MMMU基准测试中，其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术，充分展示了其强大的性能和应用广泛性。...