漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-09 talkingdev

用提示增强的视觉语言模型开源

这项项目介绍了一种方法,可以适应各种任务的类似CLIP的视觉语言模型,同时保留其泛化能力。该方法从LLM数据中学习提示,避免了需要标记图像的需求。

Read More
2023-11-15 talkingdev

使用视觉语言模型实现自主驾驶

本报告评估了GPT-4V在自主驾驶中的应用,重点关注其在场景理解、决策制定和实时响应方面的能力。GPT-4V是一种基于视觉语言模型的人工智能技术,能够自动识别和理解图像中的物体、道路、标志和其他要素,并作出相应的...

Read More
2023-11-15 talkingdev

论文:保护视觉语言模型的水印方法

在深度学习领域中,视觉语言模型(VLM)越来越受到重视。由于Embedding as a Service Vision-Language Pre-Trained Models(VLPM)中的预训练模型包含了大量的视觉和语言信息,因此这种模型很容易成为恶意攻击的目标...

Read More
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-11-09 talkingdev

CogVLM-17B开放式视觉语言模型

CogVLM-17B是一个开放式的视觉语言模型,具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色,并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型,将为计算机视觉和自然语言处理领域的发...

Read More
2023-10-31 talkingdev

ICTC-个性化图像聚类库开源

这篇论文介绍了一种名为IC⁠TC的基于文本条件的图像聚类方法,该方法利用视觉语言模型根据用户提供的文本描述对图像进行排序。IC⁠TC方法使用了预训练的视觉语言模型来生成图像和文本之间的嵌入,然后使用这些嵌入来聚...

Read More
2023-10-25 talkingdev

cola,利用视觉语言模型增强视觉推理

Cola是一个使用大型语言模型来协调各种视觉语言模型(VLM)以改进视觉推理的系统。该代码库已经在GitHub上发布。

Read More
2023-09-12 talkingdev

论文:更好理解和推理图片的新方法研究

本研究的作者们已经创建了一种方法,用以测试视觉语言模型对于他们所看到的内容进行逻辑思考的能力。视觉语言模型是一种结合了计算机视觉和自然语言处理的技术,它能理解和解释图片中的内容。然而,这种模型在理解和...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page