视觉任务的相关内容 - 漫话开发者

2023-11-13 talkingdev

LM4Visual-基于AI文本模型来进行视觉任务

研究人员发现，尽管大型语言模型是为文本设计的，但它们可以成为处理视觉任务的强大工具。使用文本训练的模型的部分来直接处理图像和视频，研究人员在各种视觉任务中取得了改进的结果。该研究结果表明，基于文本的AI...

2023-11-01 talkingdev

近期，研究人员深入探究了多模态大型语言模型（MLLMs）中使用的视觉编码器，并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM，一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

2023-10-31 talkingdev

嵌入是一种机器可读的数字列表，用于表示有关数据的某些信息。它们越来越多地通过将数据通过神经网络并查看模型的激活来获得。本文在计算机视觉任务中使用CLIP推进了这一想法，并探讨了如何使用降维来推理学习到的嵌...

2023-10-11 talkingdev

近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具，有效地将图像和视频输入转化为大型语言模型（LLM）的标记。使用MAGVIT-v2，LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容（如图像...

2023-06-26 talkingdev

TIMM中有许多顶级计算机视觉模型，但在处理生产系统时，通常需要更多。OpenMMlab提供了一套高质量的系统，用于各种视觉任务，如姿态和分割。

2023-06-08 talkingdev

最近，研究人员发现文本图像模型（如Stable Diffusion）可以具有紧急对应关系检测能力。这些对应关系是图像中的语义特征，即表示相同的事物，例如人的鼻子，动物的耳朵，汽车的轮胎等。通过巧妙的算法，可以从各种图...