多模态模型Bunny系列是一套强大的开放模型,尤其在MMMU基准测试中,其性能表现优秀。这是该团队基于Llama3 8B发布的首款开放模型。这个系列的模型采用了SigLIP与Llama3的技术,充分展示了其强大的性能和应用广泛性。...
Read MorePSALM是大型多模态模型(LMM)的扩展版本,通过引入一个掩码解码器和多功能输入模式,在各种图像分割任务中表现出色。这种方法不仅克服了仅限于文本输出的限制,而且还使模型能够有效理解和分类复杂图像。PSALM的创...
Read MorePuzzleVQA是一个专为测试大型多模态模型,如GPT-4V的抽象推理能力而设计的数据集。该数据集通过一系列复杂的视觉问题和答案对,评估模型在理解和推理方面的表现。这些问题往往需要模型进行深层次的逻辑思考和抽象概...
Read MoreAnthropic最近发布了Claude 3家族的三个新模型,其中最强的模型匹敌了GPT4的报告基准结果。此外,这是一个多模态模型,对视觉任务表现良好。值得注意的是,Claude的编码能力在此版本中得到了显著提高。
Read MoreAI初创公司Reka宣布推出了一个新的模型,该模型具备210亿个参数,完全从头开始训练。它是本地多模态的,胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是,考虑到该公司的创始人曾经工作的公司,它也匹配了G...
Read More最近,一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色,并且体积小,足以在设备上运行。Imp v1 3B的发布,对于未来的多模态研究和应用具有重要意义。目前,该模型的开源代码已...
Read More机器学习工程开源书籍发布,该项目是一个开放的方法论集合,旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令,以使读者能够快速解决问题。该...
Read MoreNous Research (Hugging Face Hub)发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型,该模型拥有30亿参数,可以在手机等边缘设备上运行。
Read More