漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-13 talkingdev

BioCLIP:专为生物应用设计的视觉模型

近日,研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示,在特定的生物任务上,BioCLIP的表现比OpenAI的clip高出近20%。此外,BioCLIP还提供了一个由1千万对图像和文本构成的训练集。 事实...

Read More
2023-12-06 talkingdev

Nous Research发布Hermes 2.5视觉模型

Nous Research发布了Hermes 2.5视觉模型,该模型基于最佳的7B语言模型和SigLIP集成,是一种强大的新型开源文本和视觉模型,可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题,该模型仍...

Read More
2023-11-17 talkingdev

论文:智能眼镜上的物体检测技术

该团队创建了一个新的面向视觉的RISC-V硬件,并训练了一个超小的YOLO计算机视觉模型,实现了低功耗和极低延迟的实时物体检测。该技术可广泛应用于智能眼镜、自动驾驶、智能家居等领域。

Read More
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-10-23 talkingdev

SoM开源,多模态语言模型的新进展

多模态语言模型(multimodal language models)的发展正日益成熟。最近,一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理,对检测到的类别...

Read More
2023-09-27 talkingdev

OpenAI的GPT-4虽然在视觉领域有所突破,但仍存在缺陷

尽管OpenAI在防止其GPT-4视觉模型破解CAPTCHAS以及基于年龄和种族估计人的年龄方面已经取得了一定的进步,但它仍然有时难以进行推理,并且仍然容易产生幻觉。这些问题暴露出,尽管我们在人工智能的发展和应用上取得...

Read More
2023-09-19 talkingdev

更高效的微调视觉变换器

对预训练的视觉模型进行特定任务的微调,通常需要大量额外的计算能力。然而,研究人员已经提出了一种名为“显著通道调整”(SCT)的方法,这种方法可以智能地选择模型中需要微调的部分,使用的额外设置要远少于其他方...

Read More
2023-09-01 talkingdev

评估计算机视觉模型的公平性:Meta发布DINO v2模型

在持续推动成为AI领域的开源贡献者的过程中,Meta公司近日公布了他们的DINO v2模型,并采用了更为宽松的许可证,允许社区在其基础上进行构建。此外,他们还发布了一个数据集,有助于确定并对各种计算机视觉模型中的...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page