漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-15 talkingdev

Gemma和Siglip推出VLLM,利用LAION和LLaVA数据集进行训练

Gemma和Siglip最近发布了一款小型但功能强大的视觉语言模型(VLLM),该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练,这些数据集包含了大量的图像和相关文本信息,使...

Read More
2024-03-21 talkingdev

交互式推理技术助力大型视觉语言模型更精准理解图像

Chain-of-Spot(CoS)技术近日提出了一种交互式推理方法,该方法大幅提升了大型视觉语言模型(LVLMs)处理和理解图像的能力。CoS通过识别图像中对于特定问题或指令的关键区域,使得LVLMs能够在不损失图像分辨率的前...

Read More
2023-11-01 talkingdev

论文:深度解析医学视觉问答,GPT-4与视觉的结合

该研究主要评估了GPT-4与视觉(GPT-4V)针对来自多种来源的医学图像(如X光和CT扫描)提出的问题的回答能力。这是一项极具挑战性的任务,它需要深度的医学知识和高级的视觉理解能力。GPT-4V作为一种尖端的人工智能技...

Read More
2023-06-30 talkingdev

XrayGPT:一种用于放射图像分析的对话式医疗AI开源

XrayGPT是一种开创性的人工智能模型,可以以对话的方式解释胸部X射线,并回答相关问题。它将视觉理解与文本知识相结合,并通过真实放射学报告的摘要进行增强。XrayGPT为自动化X射线分析提供了新的可能性。

Read More
  1. Prev Page