视觉模型的相关内容 - 漫话开发者

2023-12-13 talkingdev

BioCLIP：专为生物应用设计的视觉模型

近日，研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示，在特定的生物任务上，BioCLIP的表现比OpenAI的clip高出近20%。此外，BioCLIP还提供了一个由1千万对图像和文本构成的训练集。事实...

2023-12-06 talkingdev

Nous Research发布了Hermes 2.5视觉模型，该模型基于最佳的7B语言模型和SigLIP集成，是一种强大的新型开源文本和视觉模型，可在消费级硬件上运行。这里的一个很酷的创新是集成函数调用。由于存在幻觉问题，该模型仍...

2023-11-17 talkingdev

该团队创建了一个新的面向视觉的RISC-V硬件，并训练了一个超小的YOLO计算机视觉模型，实现了低功耗和极低延迟的实时物体检测。该技术可广泛应用于智能眼镜、自动驾驶、智能家居等领域。

2023-11-14 talkingdev

随着强大的新视觉模型的出现，许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具（例如元素标记），您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

2023-10-23 talkingdev

多模态语言模型（multimodal language models）的发展正日益成熟。最近，一种名为State of Mark prompting的方法在GitHub Repo上引起了广泛关注。该方法首先使用Segment Anything算法对图像进行处理，对检测到的类别...

2023-09-27 talkingdev

尽管OpenAI在防止其GPT-4视觉模型破解CAPTCHAS以及基于年龄和种族估计人的年龄方面已经取得了一定的进步，但它仍然有时难以进行推理，并且仍然容易产生幻觉。这些问题暴露出，尽管我们在人工智能的发展和应用上取得...

2023-09-19 talkingdev

对预训练的视觉模型进行特定任务的微调，通常需要大量额外的计算能力。然而，研究人员已经提出了一种名为“显著通道调整”（SCT）的方法，这种方法可以智能地选择模型中需要微调的部分，使用的额外设置要远少于其他方...

2023-09-01 talkingdev

在持续推动成为AI领域的开源贡献者的过程中，Meta公司近日公布了他们的DINO v2模型，并采用了更为宽松的许可证，允许社区在其基础上进行构建。此外，他们还发布了一个数据集，有助于确定并对各种计算机视觉模型中的...