漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-03 talkingdev

揭示Gemini的潜力:多模态常识推理研究

本项目介绍了对Google的Gemini进行深入分析的研究,Gemini是一种多模态大型语言模型,评估其在各种任务中的常识推理性能。该研究与其他模型进行了比较,揭示了其在跨模态知识整合方面的竞争能力。

Read More
2023-12-26 talkingdev

苹果公司新开源机器学习模型Ferret,可实现图像中任意粒度的元素识别和查询

苹果公司和康奈尔大学的研究人员于10月份发布了一个名为Ferret的开源多模态LLM模型。Ferret是一个系统,可以在图像中的任何位置引用和定位任何东西,并以任何粒度进行查询。该模型可以检查图像上绘制的区域,确定其...

Read More
2023-12-21 talkingdev

M3DBench-全面的3D指令跟踪数据集发布

M3DBench是一个全新的广泛数据集,旨在改变AI的3D理解,填补多模态语言模型研究中的差距。它包括超过320,000个不同的指令响应对,集成了文本、图像和3D对象,为AI执行更广泛的现实3D任务铺平了道路。

Read More
2023-12-18 talkingdev

Nous Research发布新的多模态模型

Nous Research (Hugging Face Hub)发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型,该模型拥有30亿参数,可以在手机等边缘设备上运行。

Read More
2023-12-15 talkingdev

Gemini多模态能力初探

Gemini在各种视觉任务中比许多开放模型表现更好。它在相同任务中似乎与GPT-V竞争力十足。

Read More
2023-12-11 talkingdev

OneLLM: 一种理解八种不同模态的多模态AI

一种名为OneLLM的新型AI模型正在掀起波澜,它使用一种独特的方法将所有这些模态与语言对齐,理解包括图像、音频甚至脑活动在内的八种不同类型的数据。OneLLM的这种多模态理解方法可能会推动AI在语义理解方面的进一步...

Read More
2023-12-08 talkingdev

BenchLLM开源,测试大型多模态模型的基准

这个项目介绍了BenchLMM,一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

Read More
2023-12-08 talkingdev

Google Gemini:原生多模态模型,文本能力达到GPT4水平

Google的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

Read More
  1. Prev Page
  2. 16
  3. 17
  4. 18
  5. Next Page