漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-26 talkingdev

R1-OneVision:多模态推理模型在复杂视觉任务中的突破

近日,R1-OneVision作为一种多功能的大型多模态模型,正式在GitHub上发布。该模型通过整合视觉与文本数据,在数学、科学、深度图像理解及逻辑推理等复杂任务中表现出色。R1-OneVision的设计旨在解决传统单一模态模型...

Read More
2025-02-24 talkingdev

谷歌发布SigLIP2:图像与文本编码模型的重大升级

SigLIP2作为SigLIP的升级版本,在多个方面实现了显著改进。SigLIP原本是一款广受欢迎的联合图像与文本编码模型,而SigLIP2在零样本分类性能上取得了重大突破,这一性能曾是CLIP模型的标志性成果。此次升级不仅提升了...

Read More
2024-09-27 talkingdev

体验Together AI的Llama 3.2,免费试用全新多模态模型

Together AI推出了Llama 3.2版本,用户可以在Together Playground上免费体验这一全新多模态模型。该模型在训练、微调和推理方面支持200多个模型,包括最新的Llama 3.2视觉模型。Llama 3.2在生产规模下实现了4倍的速...

Read More
2024-07-11 talkingdev

Chameleon模型增加图像生成能力的新进展

Anole是一款基于Meta的Chameleon模型构建的开放自回归多模态模型。近期,研究者们着重对该模型进行了微调,成功地将图像生成能力重新整合进了模型中。这一改进不仅提高了模型的功能性,也为未来的开发打开了新的可能...

Read More
2024-07-03 talkingdev

mm-instruct:利用多样化的视觉指导数据提升多模态模型的性能

MM-Instruct是一个大规模数据集,旨在提升大型多模态模型(LMMs)的指令跟随能力。这个数据集集合了大量的指令和相关的视觉内容,帮助模型更好地理解和执行人类的指令。通过这种方式,MM-Instruct能够为多模态模型提...

Read More
2024-06-04 talkingdev

LLMs在医疗领域的新突破

InvariantSelectPR是一种旨在提高大型多模态模型(LMMs)在特定领域如医疗保健中的适应性的方法。这种方法通过优化模型的选择和调整,使其能够更好地处理不同领域的数据,提高预测的准确性和可靠性。在医疗领域,数...

Read More
2024-06-03 talkingdev

OpenAI 重启机器人研究团队,探索多模态机器人模型

在停摆三年后,OpenAI 宣布重启其机器人研究团队。此举旨在开发多模态机器人模型,并改进核心的人工智能模型。OpenAI 的这一决定标志着其在机器人领域的再度发力,旨在通过多模态模型结合视觉、语音和动作等多种感知...

Read More
2024-05-10 talkingdev

Image In Words数据集,图像与文字配对的新型标签方法

近日,一种新型的标签方法被研究者利用在了图片和文字的配对上,这种方法运用了两次的VLMs(视觉语言模型)扫描,产生了极为详细的图片和文字配对数据。这些配对数据的标题比以往的任何数据集都要详细,能够帮助训练...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page